Swallow LLM Leaderboard

Swallowプロジェクトでは、日本語に強い大規模言語モデル (LLM) の開発と並行して、主要なLLMの評価実験を独自に進めています。日本国内のみならず、世界中で開発されたLLMと比較することで、Swallowプロジェクトの「現在地」を知ることができます。各LLMの独自仕様（トークン化やシステムプロンプトなど）を加味しながら公平な条件で評価を行い、各LLMの開発方法と照らし合わせることで、高性能なLLMを開発するための「レシピ」を模索できます。このサイトでは、Swallowプロジェクト内で実施されたLLMの評価結果を棒グラフやレーダーチャート、散布図などで閲覧できます。高性能なLLMを選択するための情報としてだけでなく、日本語に強いLLM開発の参考情報としてもお役に立てると幸いです。

このリーダーボードのコンテンツ（データやグラフ等）はクリエイティブ・コモンズ表示 4.0 (CC-BY 4.0) ライセンスで、評価ソフトウェア（swallow-evaluation-instructとswallow-evaluation）はMITライセンスで、このウェブサイトのソースコードはMITライセンスで提供しています。

更新履歴

2025-11-21
- PLaMo 3 NICT 2B, 8B, 31B Baseの評価結果を追加しました。
2025-10-29
- 評価フレームワークを swallow-evaluation-instruct v202510 にアップデートしました。
- 事後学習済みモデル向けの日本語のベンチマークとして、JamC-QA (日本固有の知識を問う多肢選択式質問応答) を追加しました。
- 事後学習済みモデル向けの日本語のベンチマークからJEMHopQAを削除しました。
- Apertus-8B-Instruct, Apertus-70B-Instruct, ELYZA-Shortcut-1.0-Qwen-32B, Flux-Japanese-Qwen2.5-32B-Instruct-V1.0, Qwen2.5-0.5B, QwQ Bakeneko 32Bの評価結果を追加しました。
2025-08-18
- Swallow LLM Leaderboard v2を公開しました。
- 推論型モデルなどの新しい大規模言語モデルの能力を正しく測定するため、事後学習済みモデル向けの評価ベンチマーク・評価方法を刷新しました。日本語ベンチマーク6件（JEMHopQA, MMLU-ProX, GPQA, MATH-100, JHumanEval, M-IFEval-Ja）、英語ベンチマーク6件（HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench）を採用し、評価方法をzero-shot推論（以前はfew-shot推論）に変更しました。なお、開発した評価フレームワークは swallow-evaluation-instruct として公開しました。
- ABEJA-QwQ32b-Reasoning-Japanese-v1.0、DeepSeek-R1-Distillシリーズ、ELYZA-Thinking-1.0-Qwen-32B、GPT-5 (gpt-5-2025-08-07)、gpt-oss-20b、gpt-oss-120b、Llama-3.1-Nemotronシリーズ、Llama 4 Scout Instruct、MedGemma 27B IT、o3 (o3-2025-04-16)、o3-mini (o3-mini-2025-01-31)、Phi-4-reasoning-plus、Qwen3シリーズの評価結果を追加しました。
- 総合（平均スコアの棒グラフ）、タスク毎（レーダーチャート）、散布図の3種類のページからなる構成に変更しました。それぞれ、事前学習済みモデル（事後学習なし）、または事後学習済みモデルの評価結果が可視化されます。
- 各ページに表示されるモデルの一覧（表）の右側に、規模やカテゴリでモデルを一括選択する機能を実装しました。
- 総合ページの棒グラフでいずれかのモデル名をクリックすると、モデルの整列順が切り替わる機能を実装しました。
- 専門家の混合（MoE; Mixture of Experts）のモデルに対して、有効パラメータ数を表示するようにしました。
- 散布図のプロットの色をモデルの系統別（OpenAI系、Llama系、Gemma系、Qwen系、その他）で色分けするようにしました。
- 以前のバージョンを https://swallow-llm.github.io/leaderboard-v1/ に移動しました。
2025-06-27
- llm-jp-3.1-*-instruct4のドメイン内評価（in-domain評価）に関して注釈を追加しました。
2025-06-25
- Llama 3.1 Swallow 8B v0.5の評価結果を追加しました。
- Llama 4 Scoutの評価結果を追加しました。
- llm-jp-3-7.2bの評価結果を追加しました。
- llm-jp-3-1.8b-instruct3, llm-jp-3-3.7b-instruct3, llm-jp-3-7.2b-instruct3, llm-jp-3-13b-instruct3の評価結果を追加しました。
- llm-jp-3.1-1.8b-instruct4, llm-jp-3.1-13b-instruct4の評価結果を追加しました。
- Qwen2.5-32Bの評価結果を追加しました。
- Qwen3-1.7B-Base, Qwen3-4B-Base, Qwen3-8B-Base, Qwen3-14B-Base, Qwen3-30B-A3B-Baseの評価結果を追加しました。
2025-05-21
- Sarashina2.2 0.5B, 1B, 3Bの評価結果を追加しました。
2025-05-19
- Gemma-2-Llama Swallow 2B, 9B, 27Bの評価結果を追加しました。
2025-04-14
- Gemma 3 1B, 4B, 12B, 27Bの評価結果を追加しました。
- GPT-4 (gpt-4-0613) の評価結果（日本語理解・生成タスクと日本語MT-Benchのスコア）を追加しました。
- GPT-4.5 (gpt-4.5-preview-2025-02-27) とo1 (o1-2024-12-17) の日本語MT-Benchの評価結果を追加しました。日本語理解・生成タスクでの評価も検討しましたが、Open AIのAPIの仕様により、他のモデルと実験条件を揃えられない部分（具体的には、一つのプロンプトに対して10個の応答を生成させることができない点）があるため、日本語理解・生成タスクのスコアは欠損扱いとします。
2025-03-10
- Swallow LLM Leaderboardとしてリニューアル公開しました。MATHベンチマークを追加しました。
2024-07-01
- 前身である日本語LLM評価を公開

評価タスク

事後学習（日本語）

日本語のベンチマークデータで推論型モデルを含む事後学習済みモデルの能力を測定します。評価スコアは0 (最低) から1 (最高) までの範囲の値をとります。

質問応答

JamC-QA

日本固有の知識を問う質問応答

評価尺度: 正解率

出典: 岡ら (2025)

大学レベルの試験問題

MMLU-ProX (日本語)

多分野にわたる高度な言語理解と推論能力

評価尺度: 正解率

出典: Xuan et al. (2025)

科学

GPQA (日本語)

検索では解けない大学院レベルの日本語質問応答

評価尺度: 正解率

出典: Huang et al. (2025)

数学

MATH-100 (日本語)

コンテストレベルの数学

評価尺度: 正解率

出典: Son et al. (2025)

コーディング

JHumanEval

コード生成能力のベンチマークHumanEvalの日本語訳

評価尺度: Pass@1 (n=10)

出典: 佐藤ら (2024)

指示追従

M-IFEval-Ja

指示追従能力の制御性

評価尺度: 正解率

出典: Dussolle et al. (2025)

このタスクの評価結果は平均の算出から除外されます

事後学習（英語）

英語のベンチマークデータで推論型モデルを含む事後学習済みモデルの能力を測定します。評価スコアは0 (最低) から1 (最高) までの範囲の値をとります。

自然言語推論

HellaSwag

次に起こる出来事を予測する4択の選択式問題

評価尺度: 正解率

出典: Zellers et al. (2019)

大学レベルの試験問題

MMLU-Pro (英語)

多分野にわたる高度な言語理解と推論能力

評価尺度: 正解率

出典: Wang et al. (2024)

科学

GPQA (英語)

検索では解けない大学院レベルの質問応答

評価尺度: 正解率

出典: Rein et al. (2024)

数学

MATH-500 (英語)

コンテストレベルの数学

評価尺度: 正解率

出典: Hendrycks et al. (2021)

数学

AIME 2024-2025

米国数学オリンピック (USAMO) の予選

評価尺度: 正解率

コーディング

LiveCodeBench

競技プログラミング (LeetCode, AtCoder, CodeForces)

評価尺度: Pass@1 (n=10)

日本語 MT-Bench

マルチターン対話能力を測定するMT-Benchの日本語版（Nejumi LLMリーダーボード版）を用いました。設問はv4を、模範回答はv2の誤答を修正したものを採用しています。評価スコアは0 (最低) から1 (最高) までの範囲の値をとります。