下表で選択したLLMの日本語タスク、日本語MT-Bench、英語タスクの平均スコアが棒グラフで可視化されます。左上のボタンでグラフの横長・縦長(スマートフォンでは縦長が推奨)、右上のボタンでLLMの並び順を選択できます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。なお、LLMによっては、評価を実施していないタスクがあるため、平均スコアや並び順からモデルの優劣を議論するのが適切ではない場合があります。例えば、GPT-3.5やGPT-4は日本語・英語タスクでも高い性能を示すと推測されますが、評価を実施していないため、これらのタスクの平均スコアは0として扱われ、並び順も末尾になります。

モデル一覧

モデル 平均 日本語 日本語 MT-Bench 英語
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval