下表で選択したLLMの日本語、日本語MT-Bench、英語の各タスクのスコアがレーダーチャートで可視化されます。サイト左上の🔗のアイコンから、選択したモデルに対応したパーマリンクをコピーできます。
モデル一覧
モデル | 平均 | 日本語 | 日本語 MT-Bench | 英語 | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
名前 | SortKey | 種別 | Size (B) | 日 | 日 (MTB) | 英 | JCom | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20 (en-ja) | WMT20 (ja-en) | JMMLU | JHumanEval | Coding | Extraction | Humanities | Math | Reasoning | Roleplay | Stem | Writing | OpenBookQA | TriviaQA | HellaSwag | SQuAD2 | XWINO | MMLU | GSM8K | BBH | HumanEval | |
名前 | SortKey | 種別 | Size (B) | 日 | 日 (MTB) | 英 | JCom | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20 (en-ja) | WMT20 (ja-en) | JMMLU | JHumanEval | Coding | Extraction | Humanities | Math | Reasoning | Roleplay | Stem | Writing | OpenBookQA | TriviaQA | HellaSwag | SQuAD2 | XWINO | MMLU | GSM8K | BBH | HumanEval |