日本語LLM評価

下表で選択したLLMの日本語、日本語MT-Bench、英語の各タスクのスコアがレーダーチャートで可視化されます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。

列:

モデル:

モデル					平均			日本語										日本語 MT-Bench								英語
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval

使用方法