日本語LLM評価 - タスク＋総合

向き:

整列順:

下表で選択したLLMの日本語、日本語MT-Bench、英語の各タスクのスコアがレーダーチャートで可視化され、さらにタスクの平均スコアが棒グラフで可視化されます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。なお、LLMによっては、評価を実施していないタスクがあるため、平均スコアや並び順からモデルの優劣を議論するのが適切ではない場合があります。例えば、GPT-3.5やGPT-4は日本語・英語タスクでも高い性能を示すと推測されますが、評価を実施していないため、これらのタスクの平均スコアは0として扱われ、並び順も末尾になります。

モデル一覧

列:

モデル:

モデル					平均			日本語										日本語 MT-Bench								英語
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval

使用方法・注意点

モデル一覧