任意の日本語、日本語MT-Bench、英語のタスクを横軸・縦軸に選択すると、モデルのスコアが散布図として可視化されます(点の大きさがモデルのサイズに対応します)。多くのタスクを同時に比較したい場合を想定し、二つの散布図が用意されています。可視化したいモデルは下表から選択できます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。
モデル一覧
モデル | 平均 | 日本語 | 日本語 MT-Bench | 英語 | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
名前 | SortKey | 種別 | Size (B) | 日 | 日 (MTB) | 英 | JCom | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20 (en-ja) | WMT20 (ja-en) | JMMLU | JHumanEval | Coding | Extraction | Humanities | Math | Reasoning | Roleplay | Stem | Writing | OpenBookQA | TriviaQA | HellaSwag | SQuAD2 | XWINO | MMLU | GSM8K | BBH | HumanEval | |
名前 | SortKey | 種別 | Size (B) | 日 | 日 (MTB) | 英 | JCom | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20 (en-ja) | WMT20 (ja-en) | JMMLU | JHumanEval | Coding | Extraction | Humanities | Math | Reasoning | Roleplay | Stem | Writing | OpenBookQA | TriviaQA | HellaSwag | SQuAD2 | XWINO | MMLU | GSM8K | BBH | HumanEval |