Model name Ja avg JComQA JEMHQA NIILC JSQuAD XL-Sum MGSM En-Ja Ja-En JMMLU JHumanEval
Falcon3-1B-Base 0.129 0.216 0.251 0.062 0.281 0.085 0.008 0.012 0.020 0.264 0.088
Falcon3-3B-Base 0.209 0.281 0.333 0.113 0.517 0.120 0.096 0.031 0.051 0.319 0.229
Falcon3-7B-Base 0.337 0.634 0.412 0.180 0.788 0.173 0.244 0.078 0.119 0.385 0.361
Falcon3-10B-Base 0.383 0.680 0.443 0.187 0.854 0.187 0.376 0.103 0.139 0.435 0.426
Gemma 2 2B 0.348 0.721 0.472 0.316 0.810 0.083 0.124 0.203 0.190 0.388 0.177
Gemma 2 9B 0.500 0.904 0.573 0.524 0.898 0.168 0.456 0.269 0.236 0.623 0.345
Gemma 2 27B 0.546 0.936 0.553 0.573 0.916 0.194 0.596 0.295 0.251 0.659 0.490
Gemma 2 Baku 2B 0.372 0.760 0.475 0.443 0.843 0.121 0.124 0.255 0.187 0.376 0.137
Gemma-2-Llama Swallow 2B 0.421 0.830 0.509 0.549 0.863 0.119 0.172 0.261 0.195 0.461 0.251
Gemma-2-Llama Swallow 9B 0.558 0.950 0.643 0.677 0.897 0.187 0.560 0.304 0.247 0.650 0.462
Gemma-2-Llama Swallow 27B 0.594 0.958 0.660 0.671 0.924 0.200 0.644 0.321 0.255 0.679 0.629
Gemma 3 1B 0.223 0.237 0.410 0.252 0.631 0.079 0.024 0.150 0.136 0.239 0.073
Gemma 3 4B 0.417 0.851 0.432 0.410 0.887 0.139 0.248 0.230 0.205 0.499 0.273
Gemma 3 12B 0.518 0.787 0.563 0.569 0.911 0.194 0.584 0.288 0.244 0.659 0.385
Gemma 3 27B 0.574 0.944 0.582 0.627 0.915 0.210 0.704 0.301 0.255 0.724 0.473
Llama 3 8B 0.429 0.835 0.436 0.410 0.892 0.177 0.312 0.221 0.206 0.455 0.344
Llama 3 70B 0.569 0.946 0.606 0.589 0.922 0.228 0.664 0.286 0.252 0.705 0.491
Llama 3 Swallow 8B 0.471 0.896 0.478 0.546 0.900 0.198 0.440 0.276 0.222 0.471 0.282
Llama 3 Swallow 70B 0.594 0.968 0.675 0.684 0.923 0.239 0.708 0.307 0.255 0.706 0.477
Llama 3 Youko 8B 0.442 0.870 0.493 0.513 0.895 0.213 0.276 0.276 0.219 0.449 0.222
Llama 3 Youko 70B 0.571 0.946 0.602 0.610 0.923 0.242 0.684 0.292 0.250 0.704 0.463
Llama 3.1 8B 0.437 0.845 0.461 0.405 0.895 0.179 0.356 0.221 0.210 0.479 0.320
Llama 3.1 70B 0.566 0.946 0.616 0.603 0.925 0.228 0.672 0.287 0.257 0.669 0.462
Llama 3.1 Swallow 8B v0.1 0.490 0.912 0.509 0.601 0.899 0.202 0.460 0.291 0.231 0.518 0.276
Llama 3.1 Swallow 70B v0.1 0.593 0.955 0.645 0.678 0.923 0.272 0.684 0.320 0.259 0.709 0.487
Llama 3.1 Swallow 8B v0.2 0.499 0.911 0.510 0.627 0.892 0.198 0.464 0.296 0.233 0.525 0.336
Llama 3.1 Swallow 8B v0.5 0.543 0.952 0.513 0.657 0.910 0.217 0.572 0.294 0.232 0.590 0.491
Llama 3.2 1B 0.201 0.208 0.404 0.188 0.525 0.081 0.024 0.079 0.092 0.260 0.150
Llama 3.2 3B 0.337 0.605 0.443 0.324 0.816 0.129 0.136 0.161 0.167 0.352 0.235
Llama 3.3 Swallow 70B v0.4 0.629 0.967 0.671 0.732 0.924 0.283 0.776 0.327 0.260 0.742 0.604
Llama 4 Scout 0.565 0.958 0.595 0.616 0.915 0.178 0.760 0.300 0.258 0.736 0.330
llm-jp-3-1.8b 0.251 0.209 0.463 0.449 0.703 0.100 0.012 0.198 0.134 0.242 0.001
llm-jp-3-3.7b 0.281 0.203 0.431 0.541 0.804 0.142 0.060 0.223 0.159 0.249 0.000
llm-jp-3-7.2b 0.350 0.509 0.481 0.601 0.863 0.152 0.088 0.249 0.190 0.344 0.021
llm-jp-3-13b 0.393 0.650 0.525 0.649 0.882 0.164 0.160 0.273 0.210 0.399 0.023
Mistral-Nemo-Base-2407 (12B) 0.460 0.911 0.516 0.475 0.904 0.192 0.416 0.244 0.212 0.538 0.194
Mistral-NeMo-Minitron 8B 0.444 0.887 0.486 0.374 0.902 0.157 0.424 0.186 0.193 0.494 0.332
Mistral-7B-v0.3 0.361 0.714 0.474 0.245 0.847 0.212 0.156 0.142 0.171 0.404 0.242
Mixtral-8x22B-v0.1 0.496 0.895 0.512 0.420 0.914 0.241 0.544 0.229 0.229 0.604 0.371
PLaMo 2 1B 0.250 0.203 0.463 0.434 0.626 0.055 0.052 0.236 0.119 0.256 0.057
PLaMo 2 8B 0.481 0.909 0.474 0.655 0.910 0.120 0.508 0.280 0.205 0.536 0.213
Qwen2-7B 0.472 0.875 0.463 0.372 0.899 0.172 0.524 0.209 0.195 0.587 0.422
Qwen2-72B 0.593 0.960 0.620 0.561 0.926 0.238 0.768 0.275 0.241 0.782 0.561
Qwen2.5-0.5B 0.234 0.369 0.389 0.139 0.635 0.101 0.076 0.058 0.064 0.304 0.203
Qwen2.5-1.5B 0.372 0.800 0.383 0.241 0.849 0.143 0.292 0.132 0.134 0.438 0.308
Qwen2.5-3B 0.442 0.847 0.475 0.306 0.878 0.176 0.460 0.180 0.167 0.529 0.404
Qwen2.5-7B 0.512 0.924 0.459 0.426 0.907 0.216 0.616 0.229 0.199 0.634 0.507
Qwen2.5-14B 0.568 0.958 0.567 0.537 0.923 0.225 0.740 0.260 0.230 0.690 0.550
Qwen2.5-32B 0.591 0.961 0.561 0.538 0.925 0.228 0.808 0.271 0.233 0.751 0.637
Qwen2.5-72B 0.623 0.972 0.611 0.619 0.930 0.279 0.828 0.287 0.252 0.804 0.648
Qwen3-0.6B-Base 0.322 0.705 0.344 0.175 0.807 0.111 0.300 0.096 0.097 0.373 0.216
Qwen3-1.7B-Base 0.423 0.855 0.435 0.300 0.871 0.133 0.472 0.160 0.154 0.501 0.350
Qwen3-4B-Base 0.511 0.910 0.477 0.407 0.908 0.169 0.644 0.214 0.197 0.649 0.537
Qwen3-8B-Base 0.551 0.927 0.537 0.475 0.912 0.207 0.716 0.241 0.215 0.689 0.595
Qwen3-14B-Base 0.591 0.956 0.579 0.502 0.921 0.261 0.768 0.260 0.229 0.729 0.709
Qwen3-30B-A3B-Base 0.580 0.927 0.601 0.525 0.918 0.223 0.740 0.260 0.224 0.743 0.641
Sarashina2-7B 0.395 0.742 0.509 0.634 0.868 0.141 0.080 0.273 0.201 0.384 0.121
Sarashina2-13B 0.445 0.850 0.557 0.661 0.898 0.158 0.188 0.284 0.221 0.473 0.161
Sarashina2-70B 0.530 0.929 0.717 0.668 0.929 0.190 0.488 0.313 0.243 0.592 0.235
Sarashina2.2 0.5B 0.296 0.211 0.472 0.451 0.824 0.091 0.196 0.201 0.111 0.253 0.148
Sarashina2.2 1B 0.392 0.649 0.462 0.523 0.858 0.100 0.388 0.219 0.136 0.371 0.215
Sarashina2.2 3B 0.516 0.911 0.563 0.642 0.906 0.162 0.596 0.273 0.202 0.541 0.360
Stockmark-100b 0.238 0.205 0.408 0.557 0.558 0.062 0.008 0.203 0.118 0.235 0.032
Swallow 7B 0.346 0.483 0.511 0.585 0.847 0.182 0.108 0.250 0.149 0.324 0.018
Swallow 13B 0.415 0.764 0.507 0.643 0.893 0.215 0.208 0.272 0.178 0.439 0.027
Swallow 70B 0.519 0.920 0.626 0.689 0.920 0.225 0.480 0.304 0.231 0.579 0.220
Swallow-MS 7B v0.1 0.439 0.873 0.517 0.572 0.879 0.197 0.244 0.251 0.167 0.459 0.232
Swallow-MX 8x7B v0.1 0.506 0.922 0.533 0.577 0.917 0.263 0.444 0.272 0.209 0.565 0.358
TinySwallow-1.5B 0.402 0.840 0.437 0.474 0.839 0.173 0.256 0.201 0.125 0.446 0.231
Yi-1.5 6B 0.354 0.658 0.380 0.226 0.829 0.198 0.240 0.130 0.147 0.423 0.313
Yi-1.5 9B 0.432 0.834 0.417 0.265 0.894 0.224 0.420 0.174 0.187 0.516 0.391
Yi-1.5 34B 0.468 0.869 0.461 0.332 0.899 0.238 0.520 0.219 0.208 0.591 0.346
Model name En avg OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K MATH BBH HumanEval
Falcon3-1B-Base 0.376 0.316 0.296 0.458 0.501 0.816 0.449 0.337 0.140 0.323 0.125
Falcon3-3B-Base 0.495 0.312 0.346 0.492 0.503 0.847 0.567 0.634 0.344 0.553 0.348
Falcon3-7B-Base 0.596 0.354 0.552 0.566 0.539 0.881 0.701 0.766 0.438 0.692 0.476
Falcon3-10B-Base 0.639 0.368 0.579 0.596 0.603 0.901 0.732 0.802 0.492 0.776 0.543
Gemma 2 2B 0.439 0.342 0.552 0.552 0.501 0.890 0.530 0.249 0.176 0.415 0.188
Gemma 2 9B 0.597 0.382 0.718 0.626 0.506 0.907 0.706 0.688 0.338 0.704 0.390
Gemma 2 27B 0.655 0.412 0.780 0.675 0.549 0.921 0.754 0.757 0.438 0.760 0.508
Gemma 2 Baku 2B 0.400 0.314 0.475 0.533 0.501 0.881 0.493 0.168 0.110 0.376 0.150
Gemma-2-Llama Swallow 2B 0.426 0.312 0.435 0.516 0.501 0.871 0.538 0.275 0.144 0.384 0.286
Gemma-2-Llama Swallow 9B 0.595 0.362 0.659 0.602 0.532 0.906 0.687 0.678 0.330 0.664 0.529
Gemma-2-Llama Swallow 27B 0.665 0.414 0.756 0.652 0.597 0.915 0.749 0.732 0.416 0.765 0.658
Gemma 3 1B 0.310 0.304 0.358 0.471 0.501 0.832 0.262 0.016 0.008 0.276 0.070
Gemma 3 4B 0.501 0.360 0.603 0.576 0.502 0.895 0.596 0.376 0.258 0.495 0.351
Gemma 3 12B 0.619 0.398 0.747 0.637 0.524 0.917 0.737 0.703 0.398 0.683 0.445
Gemma 3 27B 0.677 0.414 0.809 0.667 0.618 0.923 0.780 0.801 0.520 0.732 0.507
Llama 3 8B 0.542 0.380 0.712 0.612 0.502 0.905 0.651 0.487 0.180 0.620 0.376
Llama 3 70B 0.689 0.440 0.826 0.690 0.618 0.920 0.787 0.801 0.446 0.829 0.527
Llama 3 Swallow 8B 0.523 0.350 0.656 0.590 0.519 0.901 0.615 0.483 0.182 0.598 0.337
Llama 3 Swallow 70B 0.672 0.430 0.823 0.682 0.628 0.923 0.774 0.817 0.414 0.734 0.499
Llama 3 Youko 8B 0.486 0.348 0.625 0.589 0.502 0.896 0.601 0.355 0.096 0.571 0.281
Llama 3 Youko 70B 0.671 0.436 0.829 0.690 0.610 0.922 0.785 0.797 0.408 0.826 0.412
Llama 3.1 8B 0.545 0.380 0.702 0.609 0.503 0.907 0.651 0.507 0.214 0.616 0.364
Llama 3.1 70B 0.671 0.450 0.829 0.690 0.605 0.920 0.786 0.798 0.434 0.655 0.546
Llama 3.1 Swallow 8B v0.1 0.538 0.378 0.671 0.605 0.502 0.905 0.624 0.511 0.224 0.615 0.348
Llama 3.1 Swallow 70B v0.1 0.679 0.428 0.826 0.690 0.612 0.927 0.772 0.809 0.380 0.806 0.540
Llama 3.1 Swallow 8B v0.2 0.539 0.382 0.651 0.596 0.513 0.904 0.622 0.521 0.228 0.605 0.366
Llama 3.1 Swallow 8B v0.5 0.597 0.372 0.665 0.597 0.536 0.900 0.666 0.699 0.390 0.589 0.557
Llama 3.2 1B 0.339 0.300 0.388 0.477 0.501 0.849 0.313 0.049 0.020 0.303 0.193
Llama 3.2 3B 0.450 0.326 0.586 0.558 0.502 0.888 0.558 0.262 0.070 0.466 0.285
Llama 3.3 Swallow 70B v0.4 0.711 0.424 0.817 0.683 0.641 0.920 0.802 0.863 0.496 0.754 0.709
Llama 4 Scout 0.639 0.432 0.750 0.689 0.548 0.883 0.780 0.811 0.522 0.618 0.359
llm-jp-3-1.8b 0.293 0.244 0.301 0.462 0.501 0.851 0.248 0.017 0.018 0.276 0.008
llm-jp-3-3.7b 0.324 0.280 0.421 0.506 0.502 0.876 0.253 0.055 0.016 0.309 0.019
llm-jp-3-7.2b 0.363 0.312 0.522 0.544 0.501 0.888 0.373 0.086 0.022 0.362 0.020
llm-jp-3-13b 0.399 0.332 0.602 0.570 0.501 0.902 0.462 0.158 0.026 0.402 0.032
Mistral-Nemo-Base-2407 (12B) 0.559 0.422 0.741 0.647 0.528 0.914 0.690 0.550 0.184 0.657 0.259
Mistral-NeMo-Minitron 8B 0.572 0.406 0.728 0.621 0.525 0.915 0.694 0.585 0.202 0.658 0.382
Mistral-7B-v0.3 0.507 0.374 0.695 0.622 0.511 0.909 0.623 0.361 0.116 0.585 0.273
Mixtral-8x22B-v0.1 0.652 0.420 0.833 0.696 0.593 0.919 0.772 0.754 0.414 0.811 0.309
PLaMo 2 1B 0.274 0.280 0.129 0.425 0.501 0.807 0.294 0.072 0.034 0.122 0.080
PLaMo 2 8B 0.474 0.346 0.584 0.560 0.511 0.890 0.575 0.550 0.200 0.260 0.260
Qwen2-7B 0.602 0.374 0.610 0.602 0.574 0.891 0.705 0.781 0.492 0.530 0.460
Qwen2-72B 0.702 0.418 0.790 0.677 0.673 0.915 0.842 0.893 0.560 0.643 0.608
Qwen2.5-0.5B 0.365 0.266 0.190 0.399 0.501 0.768 0.479 0.341 0.148 0.277 0.277
Qwen2.5-1.5B 0.490 0.342 0.397 0.499 0.506 0.851 0.610 0.611 0.314 0.413 0.356
Qwen2.5-3B 0.534 0.360 0.504 0.553 0.541 0.872 0.657 0.580 0.440 0.442 0.387
Qwen2.5-7B 0.630 0.392 0.601 0.600 0.618 0.888 0.742 0.832 0.510 0.562 0.554
Qwen2.5-14B 0.660 0.412 0.666 0.642 0.630 0.899 0.797 0.793 0.530 0.686 0.544
Qwen2.5-32B 0.670 0.406 0.664 0.656 0.668 0.913 0.832 0.718 0.600 0.717 0.523
Qwen2.5-72B 0.709 0.416 0.760 0.685 0.693 0.901 0.861 0.870 0.626 0.727 0.554
Qwen3-0.6B-Base 0.397 0.268 0.200 0.410 0.501 0.782 0.523 0.483 0.334 0.170 0.295
Qwen3-1.7B-Base 0.516 0.348 0.362 0.493 0.504 0.849 0.626 0.629 0.456 0.431 0.462
Qwen3-4B-Base 0.610 0.382 0.508 0.555 0.588 0.891 0.729 0.719 0.520 0.594 0.617
Qwen3-8B-Base 0.667 0.382 0.618 0.594 0.602 0.903 0.765 0.855 0.622 0.655 0.669
Qwen3-14B-Base 0.660 0.416 0.657 0.625 0.669 0.901 0.806 0.799 0.548 0.466 0.709
Qwen3-30B-A3B-Base 0.691 0.414 0.653 0.631 0.619 0.901 0.812 0.828 0.634 0.720 0.694
Sarashina2-7B 0.383 0.346 0.479 0.532 0.501 0.892 0.425 0.101 0.034 0.373 0.146
Sarashina2-13B 0.418 0.340 0.548 0.562 0.501 0.896 0.496 0.158 0.036 0.442 0.198
Sarashina2-70B 0.491 0.388 0.537 0.628 0.675 0.917 0.630 0.011 0.206 0.639 0.281
Sarashina2.2 0.5B 0.339 0.302 0.203 0.420 0.501 0.794 0.262 0.246 0.130 0.312 0.223
Sarashina2.2 1B 0.415 0.324 0.289 0.469 0.502 0.827 0.400 0.403 0.206 0.385 0.342
Sarashina2.2 3B 0.532 0.362 0.447 0.538 0.513 0.877 0.572 0.624 0.310 0.551 0.530
Stockmark-100b 0.302 0.278 0.366 0.458 0.501 0.820 0.258 0.017 0.014 0.259 0.046
Swallow 7B 0.363 0.312 0.491 0.527 0.501 0.885 0.391 0.103 0.020 0.354 0.041
Swallow 13B 0.412 0.344 0.580 0.560 0.502 0.902 0.501 0.197 0.024 0.430 0.080
Swallow 70B 0.543 0.416 0.761 0.643 0.522 0.920 0.659 0.503 0.108 0.655 0.240
Swallow-MS 7B v0.1 0.461 0.352 0.599 0.579 0.501 0.901 0.548 0.268 0.096 0.491 0.270
Swallow-MX 8x7B v0.1 0.589 0.348 0.773 0.651 0.538 0.919 0.692 0.574 0.298 0.686 0.410
TinySwallow-1.5B 0.413 0.308 0.332 0.468 0.501 0.850 0.546 0.379 0.162 0.328 0.254
Yi-1.5 6B 0.540 0.344 0.593 0.575 0.651 0.898 0.636 0.522 0.244 0.583 0.352
Yi-1.5 9B 0.592 0.390 0.619 0.601 0.693 0.902 0.696 0.620 0.300 0.710 0.384
Yi-1.5 34B 0.650 0.402 0.708 0.662 0.754 0.910 0.774 0.743 0.394 0.763 0.385