Model name Ja avg JComQA JEMHQA NIILC JSQuAD XL-Sum MGSM En-Ja Ja-En JMMLU JHumanEval
Falcon3-1B-Instruct 0.169 0.240 0.312 0.132 0.454 0.101 0.020 0.028 0.032 0.281 0.089
Falcon3-3B-Instruct 0.232 0.421 0.160 0.113 0.632 0.141 0.092 0.061 0.058 0.331 0.308
Gemma 2 2B IT 0.392 0.862 0.348 0.315 0.879 0.117 0.252 0.207 0.183 0.437 0.321
Gemma 2 Baku 2B IT 0.366 0.855 0.228 0.390 0.877 0.115 0.172 0.255 0.190 0.415 0.165
Gemma 2 JPN 0.377 0.845 0.321 0.291 0.877 0.132 0.192 0.204 0.179 0.418 0.311
Llama 3.2 1B Instruct 0.239 0.397 0.346 0.179 0.570 0.075 0.164 0.070 0.091 0.287 0.207
Llama 3.2 3B Instruct 0.380 0.783 0.304 0.268 0.846 0.112 0.372 0.173 0.155 0.404 0.387
llm-jp-3-1.8b-instruct 0.293 0.324 0.413 0.466 0.837 0.105 0.080 0.206 0.142 0.292 0.061
llm-jp-3-3.7b-instruct 0.350 0.533 0.464 0.528 0.847 0.139 0.152 0.224 0.170 0.359 0.085
Phi-3-Mini-128K-Instruct 0.382 0.720 0.394 0.208 0.832 0.132 0.408 0.150 0.136 0.409 0.428
Qwen2.5-0.5B-Instruct 0.243 0.382 0.401 0.157 0.687 0.112 0.080 0.095 0.067 0.318 0.135
Qwen2.5-1.5B-Instruct 0.355 0.812 0.276 0.240 0.847 0.128 0.292 0.147 0.119 0.447 0.242
Qwen2.5-3B-Instruct 0.409 0.876 0.304 0.293 0.866 0.144 0.228 0.198 0.168 0.536 0.474
TinySwallow-1.5B-Instruct 0.398 0.802 0.345 0.447 0.856 0.159 0.308 0.203 0.143 0.461 0.251
Model name En avg OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K MATH BBH HumanEval
Falcon3-1B-Instruct 0.381 0.344 0.261 0.480 0.501 0.815 0.459 0.391 0.130 0.330 0.101
Falcon3-3B-Instruct 0.526 0.372 0.286 0.541 0.513 0.818 0.562 0.712 0.440 0.562 0.454
Gemma 2 2B IT 0.489 0.354 0.502 0.520 0.548 0.878 0.569 0.440 0.230 0.464 0.382
Gemma 2 Baku 2B IT 0.361 0.342 0.416 0.511 0.522 0.871 0.526 0.026 0.174 0.063 0.158
Gemma 2 JPN 0.470 0.370 0.503 0.532 0.539 0.879 0.557 0.351 0.132 0.451 0.392
Llama 3.2 1B Instruct 0.408 0.274 0.375 0.440 0.501 0.837 0.454 0.318 0.172 0.362 0.347
Llama 3.2 3B Instruct 0.537 0.306 0.556 0.524 0.540 0.874 0.597 0.629 0.324 0.512 0.511
llm-jp-3-1.8b-instruct 0.313 0.286 0.296 0.485 0.502 0.847 0.277 0.043 0.016 0.290 0.087
llm-jp-3-3.7b-instruct 0.347 0.310 0.398 0.534 0.503 0.862 0.349 0.071 0.022 0.324 0.099
Phi-3-Mini-128K-Instruct 0.615 0.422 0.526 0.605 0.559 0.871 0.695 0.759 0.368 0.711 0.627
Qwen2.5-0.5B-Instruct 0.336 0.272 0.184 0.398 0.501 0.767 0.471 0.190 0.236 0.105 0.240
Qwen2.5-1.5B-Instruct 0.424 0.334 0.378 0.503 0.501 0.844 0.604 0.257 0.272 0.272 0.277
Qwen2.5-3B-Instruct 0.472 0.364 0.446 0.562 0.504 0.869 0.664 0.096 0.612 0.128 0.471
TinySwallow-1.5B-Instruct 0.411 0.310 0.309 0.487 0.501 0.843 0.560 0.398 0.162 0.251 0.294
Model name JMT avg Code Ext Human Math Reason Role STEM Write
Falcon3-1B-Instruct 0.161 0.176 0.178 0.121 0.161 0.224 0.154 0.124 0.148
Falcon3-3B-Instruct 0.260 0.329 0.392 0.219 0.199 0.267 0.234 0.229 0.208
Gemma 2 2B IT 0.569 0.454 0.587 0.693 0.524 0.445 0.654 0.567 0.630
Gemma 2 Baku 2B IT 0.590 0.470 0.625 0.810 0.414 0.382 0.713 0.609 0.697
Gemma 2 JPN 0.550 0.467 0.488 0.741 0.379 0.406 0.660 0.589 0.672
Llama 3.2 1B Instruct 0.273 0.254 0.376 0.218 0.307 0.267 0.262 0.246 0.258
Llama 3.2 3B Instruct 0.405 0.426 0.593 0.431 0.389 0.292 0.350 0.380 0.380
llm-jp-3-1.8b-instruct 0.451 0.274 0.321 0.680 0.281 0.301 0.628 0.504 0.617
llm-jp-3-3.7b-instruct 0.485 0.311 0.418 0.730 0.311 0.339 0.618 0.551 0.600
Phi-3-Mini-128K-Instruct 0.524 0.535 0.680 0.553 0.514 0.416 0.505 0.465 0.525
Qwen2.5-0.5B-Instruct 0.294 0.335 0.284 0.285 0.317 0.248 0.294 0.279 0.313
Qwen2.5-1.5B-Instruct 0.450 0.408 0.513 0.456 0.527 0.352 0.473 0.406 0.469
Qwen2.5-3B-Instruct 0.593 0.567 0.647 0.597 0.665 0.457 0.649 0.526 0.637
TinySwallow-1.5B-Instruct 0.565 0.434 0.572 0.772 0.453 0.392 0.645 0.610 0.643