日本語LLM評価

任意の日本語、日本語MT-Bench、英語のタスクを横軸・縦軸に選択すると、モデルのスコアが散布図として可視化されます（点の大きさがモデルのサイズに対応します）。多くのタスクを同時に比較したい場合を想定し、二つの散布図が用意されています。可視化したいモデルは下表から選択できます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。

モデル一覧

列:

モデル:

モデル					平均			日本語										日本語 MT-Bench								英語
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval
	名前	SortKey	種別	Size (B)	日	日 (MTB)	英	JCom	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20 (en-ja)	WMT20 (ja-en)	JMMLU	JHumanEval	Coding	Extraction	Humanities	Math	Reasoning	Roleplay	Stem	Writing	OpenBookQA	TriviaQA	HellaSwag	SQuAD2	XWINO	MMLU	GSM8K	BBH	HumanEval

使用方法

モデル一覧