下表で選択したLLMの日本語、日本語MT-Bench、英語の各タスクのスコアがレーダーチャートで可視化され、さらにタスクの平均スコアが棒グラフで可視化されます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。なお、LLMによっては、評価を実施していないタスクがあるため、平均スコアや並び順からモデルの優劣を議論するのが適切ではない場合があります。例えば、GPT-3.5やGPT-4は日本語・英語タスクでも高い性能を示すと推測されますが、評価を実施していないため、これらのタスクの平均スコアは0として扱われ、並び順も末尾になります。

モデル一覧

モデル 平均 日本語 日本語 MT-Bench 英語
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval