任意の日本語、日本語MT-Bench、英語のタスクを横軸・縦軸に選択すると、モデルのスコアが散布図として可視化されます(点の大きさがモデルのサイズに対応します)。多くのタスクを同時に比較したい場合を想定し、二つの散布図が用意されています。可視化したいモデルは下表から選択できます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。

モデル一覧

モデル 平均 日本語 日本語 MT-Bench 英語
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval