Model name Pre (ja) avg JComQA JEMHQA NIILC JSQuAD XL-Sum MGSM En-Ja Ja-En JMMLU JHumanEval
Falcon3-1B-Base 0.129 0.216 0.251 0.062 0.281 0.085 0.008 0.012 0.020 0.264 0.088
Falcon3-3B-Base 0.209 0.281 0.333 0.113 0.517 0.120 0.096 0.031 0.051 0.319 0.229
Falcon3-7B-Base 0.337 0.634 0.412 0.180 0.788 0.173 0.244 0.078 0.119 0.385 0.361
Falcon3-10B-Base 0.383 0.680 0.443 0.187 0.854 0.187 0.376 0.103 0.139 0.435 0.426
Gemma 2 2B 0.348 0.721 0.472 0.316 0.810 0.083 0.124 0.203 0.190 0.388 0.177
Gemma 2 9B 0.500 0.904 0.573 0.524 0.898 0.168 0.456 0.269 0.236 0.623 0.345
Gemma 2 27B 0.546 0.936 0.553 0.573 0.916 0.194 0.596 0.295 0.251 0.659 0.490
Gemma-2-Llama Swallow 2B 0.421 0.830 0.509 0.549 0.863 0.119 0.172 0.261 0.195 0.461 0.251
Gemma-2-Llama Swallow 9B 0.558 0.950 0.643 0.677 0.897 0.187 0.560 0.304 0.247 0.650 0.462
Gemma-2-Llama Swallow 27B 0.594 0.958 0.660 0.671 0.924 0.200 0.644 0.321 0.255 0.679 0.629
Gemma 3 1B 0.223 0.237 0.410 0.252 0.631 0.079 0.024 0.150 0.136 0.239 0.073
Gemma 3 4B 0.417 0.851 0.432 0.410 0.887 0.139 0.248 0.230 0.205 0.499 0.273
Gemma 3 12B 0.518 0.787 0.563 0.569 0.911 0.194 0.584 0.288 0.244 0.659 0.385
Gemma 3 27B 0.574 0.944 0.582 0.627 0.915 0.210 0.704 0.301 0.255 0.724 0.473
Llama 3.1 8B 0.437 0.845 0.461 0.405 0.895 0.179 0.356 0.221 0.210 0.479 0.320
Llama 3.1 70B 0.566 0.946 0.616 0.603 0.925 0.228 0.672 0.287 0.257 0.669 0.462
Llama 3.1 Swallow 8B v0.5 0.543 0.952 0.513 0.657 0.910 0.217 0.572 0.294 0.232 0.590 0.491
Llama 3.2 1B 0.201 0.208 0.404 0.188 0.525 0.081 0.024 0.079 0.092 0.260 0.150
Llama 3.2 3B 0.337 0.605 0.443 0.324 0.816 0.129 0.136 0.161 0.167 0.352 0.235
Llama 3.3 Swallow 70B v0.4 0.629 0.967 0.671 0.732 0.924 0.283 0.776 0.327 0.260 0.742 0.604
Llama 4 Scout 0.565 0.958 0.595 0.616 0.915 0.178 0.760 0.300 0.258 0.736 0.330
llm-jp-3-1.8b 0.251 0.209 0.463 0.449 0.703 0.100 0.012 0.198 0.134 0.242 0.001
llm-jp-3-3.7b 0.281 0.203 0.431 0.541 0.804 0.142 0.060 0.223 0.159 0.249 0.000
llm-jp-3-7.2b 0.350 0.509 0.481 0.601 0.863 0.152 0.088 0.249 0.190 0.344 0.021
llm-jp-3-13b 0.393 0.650 0.525 0.649 0.882 0.164 0.160 0.273 0.210 0.399 0.023
PLaMo 2 1B 0.250 0.203 0.463 0.434 0.626 0.055 0.052 0.236 0.119 0.256 0.057
PLaMo 2 8B 0.481 0.909 0.474 0.655 0.910 0.120 0.508 0.280 0.205 0.536 0.213
Qwen2.5-1.5B 0.372 0.800 0.383 0.241 0.849 0.143 0.292 0.132 0.134 0.438 0.308
Qwen2.5-3B 0.442 0.847 0.475 0.306 0.878 0.176 0.460 0.180 0.167 0.529 0.404
Qwen2.5-7B 0.512 0.924 0.459 0.426 0.907 0.216 0.616 0.229 0.199 0.634 0.507
Qwen2.5-14B 0.568 0.958 0.567 0.537 0.923 0.225 0.740 0.260 0.230 0.690 0.550
Qwen2.5-32B 0.591 0.961 0.561 0.538 0.925 0.228 0.808 0.271 0.233 0.751 0.637
Qwen2.5-72B 0.623 0.972 0.611 0.619 0.930 0.279 0.828 0.287 0.252 0.804 0.648
Qwen3-0.6B-Base 0.322 0.705 0.344 0.175 0.807 0.111 0.300 0.096 0.097 0.373 0.216
Qwen3-1.7B-Base 0.423 0.855 0.435 0.300 0.871 0.133 0.472 0.160 0.154 0.501 0.350
Qwen3-4B-Base 0.511 0.910 0.477 0.407 0.908 0.169 0.644 0.214 0.197 0.649 0.537
Qwen3-8B-Base 0.551 0.927 0.537 0.475 0.912 0.207 0.716 0.241 0.215 0.689 0.595
Qwen3-14B-Base 0.591 0.956 0.579 0.502 0.921 0.261 0.768 0.260 0.229 0.729 0.709
Qwen3-30B-A3B-Base 0.580 0.927 0.601 0.525 0.918 0.223 0.740 0.260 0.224 0.743 0.641
Sarashina2-7B 0.395 0.742 0.509 0.634 0.868 0.141 0.080 0.273 0.201 0.384 0.121
Sarashina2-13B 0.445 0.850 0.557 0.661 0.898 0.158 0.188 0.284 0.221 0.473 0.161
Sarashina2-70B 0.530 0.929 0.717 0.668 0.929 0.190 0.488 0.313 0.243 0.592 0.235
Sarashina2.2 0.5B 0.296 0.211 0.472 0.451 0.824 0.091 0.196 0.201 0.111 0.253 0.148
Sarashina2.2 1B 0.392 0.649 0.462 0.523 0.858 0.100 0.388 0.219 0.136 0.371 0.215
Sarashina2.2 3B 0.516 0.911 0.563 0.642 0.906 0.162 0.596 0.273 0.202 0.541 0.360
TinySwallow-1.5B 0.402 0.840 0.437 0.474 0.839 0.173 0.256 0.201 0.125 0.446 0.231
Model name Pre (en) avg OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K MATH BBH HumanEval
Falcon3-1B-Base 0.376 0.316 0.296 0.458 0.501 0.816 0.449 0.337 0.140 0.323 0.125
Falcon3-3B-Base 0.495 0.312 0.346 0.492 0.503 0.847 0.567 0.634 0.344 0.553 0.348
Falcon3-7B-Base 0.596 0.354 0.552 0.566 0.539 0.881 0.701 0.766 0.438 0.692 0.476
Falcon3-10B-Base 0.639 0.368 0.579 0.596 0.603 0.901 0.732 0.802 0.492 0.776 0.543
Gemma 2 2B 0.439 0.342 0.552 0.552 0.501 0.890 0.530 0.249 0.176 0.415 0.188
Gemma 2 9B 0.597 0.382 0.718 0.626 0.506 0.907 0.706 0.688 0.338 0.704 0.390
Gemma 2 27B 0.655 0.412 0.780 0.675 0.549 0.921 0.754 0.757 0.438 0.760 0.508
Gemma-2-Llama Swallow 2B 0.426 0.312 0.435 0.516 0.501 0.871 0.538 0.275 0.144 0.384 0.286
Gemma-2-Llama Swallow 9B 0.595 0.362 0.659 0.602 0.532 0.906 0.687 0.678 0.330 0.664 0.529
Gemma-2-Llama Swallow 27B 0.665 0.414 0.756 0.652 0.597 0.915 0.749 0.732 0.416 0.765 0.658
Gemma 3 1B 0.310 0.304 0.358 0.471 0.501 0.832 0.262 0.016 0.008 0.276 0.070
Gemma 3 4B 0.501 0.360 0.603 0.576 0.502 0.895 0.596 0.376 0.258 0.495 0.351
Gemma 3 12B 0.619 0.398 0.747 0.637 0.524 0.917 0.737 0.703 0.398 0.683 0.445
Gemma 3 27B 0.677 0.414 0.809 0.667 0.618 0.923 0.780 0.801 0.520 0.732 0.507
Llama 3.1 8B 0.545 0.380 0.702 0.609 0.503 0.907 0.651 0.507 0.214 0.616 0.364
Llama 3.1 70B 0.671 0.450 0.829 0.690 0.605 0.920 0.786 0.798 0.434 0.655 0.546
Llama 3.1 Swallow 8B v0.5 0.597 0.372 0.665 0.597 0.536 0.900 0.666 0.699 0.390 0.589 0.557
Llama 3.2 1B 0.339 0.300 0.388 0.477 0.501 0.849 0.313 0.049 0.020 0.303 0.193
Llama 3.2 3B 0.450 0.326 0.586 0.558 0.502 0.888 0.558 0.262 0.070 0.466 0.285
Llama 3.3 Swallow 70B v0.4 0.711 0.424 0.817 0.683 0.641 0.920 0.802 0.863 0.496 0.754 0.709
Llama 4 Scout 0.639 0.432 0.750 0.689 0.548 0.883 0.780 0.811 0.522 0.618 0.359
llm-jp-3-1.8b 0.293 0.244 0.301 0.462 0.501 0.851 0.248 0.017 0.018 0.276 0.008
llm-jp-3-3.7b 0.324 0.280 0.421 0.506 0.502 0.876 0.253 0.055 0.016 0.309 0.019
llm-jp-3-7.2b 0.363 0.312 0.522 0.544 0.501 0.888 0.373 0.086 0.022 0.362 0.020
llm-jp-3-13b 0.399 0.332 0.602 0.570 0.501 0.902 0.462 0.158 0.026 0.402 0.032
PLaMo 2 1B 0.274 0.280 0.129 0.425 0.501 0.807 0.294 0.072 0.034 0.122 0.080
PLaMo 2 8B 0.474 0.346 0.584 0.560 0.511 0.890 0.575 0.550 0.200 0.260 0.260
Qwen2.5-1.5B 0.490 0.342 0.397 0.499 0.506 0.851 0.610 0.611 0.314 0.413 0.356
Qwen2.5-3B 0.534 0.360 0.504 0.553 0.541 0.872 0.657 0.580 0.440 0.442 0.387
Qwen2.5-7B 0.630 0.392 0.601 0.600 0.618 0.888 0.742 0.832 0.510 0.562 0.554
Qwen2.5-14B 0.660 0.412 0.666 0.642 0.630 0.899 0.797 0.793 0.530 0.686 0.544
Qwen2.5-32B 0.670 0.406 0.664 0.656 0.668 0.913 0.832 0.718 0.600 0.717 0.523
Qwen2.5-72B 0.709 0.416 0.760 0.685 0.693 0.901 0.861 0.870 0.626 0.727 0.554
Qwen3-0.6B-Base 0.397 0.268 0.200 0.410 0.501 0.782 0.523 0.483 0.334 0.170 0.295
Qwen3-1.7B-Base 0.516 0.348 0.362 0.493 0.504 0.849 0.626 0.629 0.456 0.431 0.462
Qwen3-4B-Base 0.610 0.382 0.508 0.555 0.588 0.891 0.729 0.719 0.520 0.594 0.617
Qwen3-8B-Base 0.667 0.382 0.618 0.594 0.602 0.903 0.765 0.855 0.622 0.655 0.669
Qwen3-14B-Base 0.660 0.416 0.657 0.625 0.669 0.901 0.806 0.799 0.548 0.466 0.709
Qwen3-30B-A3B-Base 0.691 0.414 0.653 0.631 0.619 0.901 0.812 0.828 0.634 0.720 0.694
Sarashina2-7B 0.383 0.346 0.479 0.532 0.501 0.892 0.425 0.101 0.034 0.373 0.146
Sarashina2-13B 0.418 0.340 0.548 0.562 0.501 0.896 0.496 0.158 0.036 0.442 0.198
Sarashina2-70B 0.491 0.388 0.537 0.628 0.675 0.917 0.630 0.011 0.206 0.639 0.281
Sarashina2.2 0.5B 0.339 0.302 0.203 0.420 0.501 0.794 0.262 0.246 0.130 0.312 0.223
Sarashina2.2 1B 0.415 0.324 0.289 0.469 0.502 0.827 0.400 0.403 0.206 0.385 0.342
Sarashina2.2 3B 0.532 0.362 0.447 0.538 0.513 0.877 0.572 0.624 0.310 0.551 0.530
TinySwallow-1.5B 0.413 0.308 0.332 0.468 0.501 0.850 0.546 0.379 0.162 0.328 0.254