下表で選択したLLMの日本語、日本語MT-Bench、英語の各タスクのスコアがレーダーチャートで可視化されます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。

モデル一覧

モデル 平均 日本語 日本語 MT-Bench 英語
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval
名前 SortKey 種別 Size (B) 日 (MTB) JCom JEMHopQA NIILC JSQuAD XL-Sum MGSM WMT20 (en-ja) WMT20 (ja-en) JMMLU JHumanEval Coding Extraction Humanities Math Reasoning Roleplay Stem Writing OpenBookQA TriviaQA HellaSwag SQuAD2 XWINO MMLU GSM8K BBH HumanEval