Swallow LLM Leaderboard v2

Swallow LLM Leaderboard v2 は、日本の大規模言語モデルを対象とし、高難易度ベンチマークを収録したリーダーボードです。ここで公開している実験結果は、事後学習済み大規模言語モデルの評価のために開発された swallow-evaluation-instruct を用いて得られています。

更新履歴

2025-08-20: Swallow LLM Leaderboard v2 および swallow-evaluation-instruct を公開しました。

背景

大規模言語モデルの応答は、プロンプトや生成時の設定に大きく依存することが知られています。このため、モデルの能力を公平かつ安定的に測定するには、実験条件を揃えることが重要です。

Swallowチームでは swallow-evaluation フレームワークを開発し、できるだけ統一的な条件で様々な大規模言語モデルを評価してきました。事前学習済みモデルと事後学習済みモデルの性能を比較できるよう、以下の実験条件（従来方式と呼びます）を基本としました。

対話形式のプロンプトに変換するチャットテンプレートを用いない（ただし、MT-Benchの評価にはチャットテンプレートを適用する）
few-shot推論を採用する（モデルがタスクの指示を理解できない可能性があるため）
答えのみを出力させる（評価範囲を明確にするため）
多肢選択問題では原則として尤度に基づき選択肢を選ぶ（選択肢以外を出力するモデルも考慮するため）
温度0による貪欲デコーディング（確率的デコーディングは結果が不安定になるため）

百科事典的知識や常識に基づく質問応答のような知識依存型タスク、機械翻訳や自動要約のような伝統的な自然言語処理タスクでは、この方式でも十分に性能を測定できることが確認されています。

しかし近年、OpenAI o1 や DeepSeek-R1 に代表される推論型モデル（思考の深いモデル）が登場し、従来方式では性能を正しく測定できないことが明らかになりました。たとえば DeepSeek-R1 を模倣学習したモデル（DeepSeek-R1-Distill-Llama-8B）を従来方式で評価すると、MATH や GPQA といった推論重視の数学・科学のベンチマークで最大30ポイントもの過小評価が生じました。これらのモデルは、チャットテンプレートの適用、zero-shot推論、推論過程を含む自由生成を前提として初めて本来の性能を発揮することが確認されています。また、OpenAI GPT シリーズのようにAPIのみで提供されるモデルでは、尤度による評価そのものが不可能です。さらに推論型モデルの進展により従来のベンチマークがスコア飽和を起こしつつあり、より高難度の課題設定が必要となってきました。

このような背景から、私たちは swallow-evaluation-instruct を新たに開発しました。本フレームワークは、思考の深い推論型の事後学習済みモデルも正しく評価できるように設計されており、以下の条件を取り入れています。

チャットテンプレートを適用したプロンプト
原則として zero-shot 推論
推論が有効なタスクに対する思考の連鎖プロンプト
短答ではなく推論過程を含む自由生成
確率的デコーディングに対応
推論過程を除去した最終回答のみを評価対象とする
思考する深さの制御に対応

評価ベンチマークは、日本語大規模言語モデルの課題を明らかにできること、国際的に採用実績があること、構築過程や検証方法が公開されていること、専門家によって品質が担保されていること、従来のベンチマークよりも難易度が高いことを基準に選定しました。2025年8月現在、日本語6タスク（JEMHopQA, MMLU-ProX, GPQA, MATH-100, JHumanEval, M-IFEval-Ja）、英語6タスク（HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench）を採用しています。これらの評価結果は Swallow LLM Leaderboard v2 として公開しています。

私たちは、Swallow LLM Leaderboard v2 および swallow-evaluation-instruct を研究開発コミュニティに公開することで、以下の貢献につながると考えています。

透明性の確保: 評価方法を公開し、誰もが同じ基準で検証できる環境を提供する
再現性の担保: 標準化された条件で、研究や開発の成果を正しく比較できるようにする
コミュニティへの貢献: 推論型モデルのような事後学習の方法論や推論時のスケーリング則の研究が主流となる中、共通の土台を提供し、新しい知見や手法の発展を支える

私たちの目標は、単なる数値比較ではなく、日本の大規模言語モデル研究の透明性と進展を支える共通基盤を築くことにあります。Swallow LLM Leaderboard v2 および swallow-evaluation-instruct により、その目標の実現が近づくことを願っています。

成果

総合スコア

事後学習済みモデルのベンチマーク結果の平均スコア（いずれかのモデル名をクリックすると整列順が変わります）

swallow-evaluation-instruct を用いて、事後学習済みモデルを評価した結果を示します。各モデルについて、左から順に、日本語5タスク（M-IFEval-Jaは除く）の平均スコア、英語6タスクの平均スコア、日本語MT-Benchの平均スコア、英語MT-Benchの平均スコアを表示しています。スコアはすべて0（最低）から1（最高）の範囲で示されます。デフォルトでは日本語5タスクの平均スコア順にモデルが並びますが、モデル名をクリックすることで並び替えが可能です。

日本語5タスクの平均では、GPT-5が最も高いスコア（0.891）を記録しました。GPT-5は英語6タスクでも最高スコア（0.875）を示しており、OpenAIの最新モデルの性能の高さが確認できます。オープンモデルの中では、Qwen3-235B-A22B-Thinking-2507が日本語5タスクで最も高い平均スコア（0.823）を記録しました。上位のGPT-5やo3との差は残るものの、オープンモデルとクローズドモデルとのギャップが着実に縮まってきていることを示しています。さらに、このモデルが寛容なライセンス（Apache 2.0）で公開されている点も注目に値します。

最近、OpenAIがApache 2.0ライセンスで公開し話題となった gpt-oss-120b は、全体で6位、オープンモデルの中ではQwen3-235B-A22B-Instruct-2507に次ぐ3位となりました。総パラメータ数は上位のQwen3モデルの約半分であり、コストパフォーマンスに優れたモデルと言えるでしょう。さらに、GPT-4.1のすぐ下、o3-miniのすぐ上に位置しており、gpt-oss-120b は最先端モデルの一角を占めていることが分かります。なお、gpt-oss-120bでは推論モードをhighに設定すると生成が途中で途切れる場合があったため、ここではmediumを使用しました。

一方で、Swallowチームで開発してきたモデルは、思考の深い推論に対応していないため平均スコアが伸び悩んでいます。また、Swallowシリーズでは日本語や日本に関する知識に重点を置いてきましたが、今回の事後学習済みモデル向けベンチマークでは知識量を測るタスクがJEMHopQA（日）および HellaSwag（英）しか含まれていないことも、平均スコアに影響しています。それでも、今回開発した swallow-evaluation-instruct による評価は、推論型モデルの強力さや各モデルの事後学習レシピの違いなどを含む最新のトレンドを反映しており、今後のモデル開発の重要な基盤となると考えています。

タスク毎のスコア

事後学習済みモデル向けの日本語タスクの評価結果

事後学習済みモデル向けの英語タスクの評価結果

Qwen3-235B-A22B-Thinking-2507、GPT-5、gpt-oss-120b、gpt-oss-20bの4つのモデルについて、日本語6タスクと英語6タスクのスコアをレーダーチャートで可視化しました。日本語6タスクでは、GPT-5の性能が際立っており、各タスクのスコアが1.0に近づいているため、より高難易度なベンチマークの整備が求められる状況を映し出しています。オープンモデルであるQwen3-235B-A22B-Thinking-2507やgpt-oss-120bも規模に見合った結果を示しており、特定のタスクで大きな弱点が見られない点は注目に値します。ただし、日本語の知識量を測るJEMHopQAに関しては、ここには示していないLlama 3.3 Swallow 70B Instruct v0.4のスコア（0.658）がgpt-oss-120b（0.635）を上回っており、日本や日本語に関する知識には依然として改善の余地があることが示されています。また、日本語のベンチマークとそれに対応する英語のベンチマーク（MATH-100 vs. MATH-500, GPQA（日） vs. GPQA（英）, MMLU-ProX vs. MMLU-Pro）の各モデルの点の位置がほとんど同じであることから、少なくともトップレベルのモデルは、数学や科学の問題を日本語と英語のどちらで出題されても同程度に解けることが分かります。

日本語MT-Benchの評価結果

英語MT-Benchの評価結果

次に、対話において有用な応答を返す性能を評価する、日本語と英語のMT-Benchによる評価結果を示します。いずれのモデルも高いスコアを記録しており、特にQwen3-235B-A22B-Thinking-2507やgpt-oss-20bがGPT-5を上回る結果となっています。このことからも、最先端の大規模言語モデルの性能をMT-Benchだけで十分に測定するのは難しくなりつつあると考えられます。一方で、対話タスクであっても「ひらがなだけで応答せよ」のような日本語対話時の指示追従性能（制御性）を評価するM-IFEval-Jaについては、前述のチャートで示したとおりにモデル間の性能差が認められます。

評価フレームワーク: swallow-evaluation-instruct

swallow-evaluation-instruct の開発にあたっては、既存の評価フレームワーク（LM Eval Harness, llm-jp-eval, lighteval）を比較検討して、lighteval をベースに開発を行うことにしました。主な理由は以下の通りです。

回答抽出の容易さ: モデルの出力から数式や選択肢記号などの”回答”に該当する文字列を抽出する汎用的な正規表現が整備されており、実装の負担が小さい。
コード生成タスクへの適性: 単体テストを実行して正誤判定する機能が実装されており、HumanEval などのコード生成タスクを外部依存性を増やさずに容易に追加できる。
高い拡張性: プロンプトの設定、モデル出力の生成、回答抽出や正誤判定がモジュール化されており、新しいベンチマークの追加や既存ベンチマークの改変が容易。
主要ベンチマークの再現性: MATH-500, AIME, GPQA, LiveCodeBench といった実装済みの数学・科学・コード生成のベンチマークで、DeepSeek-R1 論文のスコアが再現できている。Gemma3やQwen3などの主要なモデル系列の公式スコアも再現できた。

swallow-evaluation-instruct の設計にあたり、以下を必須要件としました。

事後学習済みモデルにビルトインされているチャットテンプレートの自動適用
温度パラメータなどのモデル出力生成条件の実行時引数による指定
多肢選択・数式・自由記述・コードスニペットに対応した柔軟な回答抽出機能
推論型モデルの出力を推論過程と最終回答に分離する機能

さらに、望ましい機能として以下を挙げました。

主要なベンチマーク（例: GPQA）が実装済み
ベンチマーク追加の容易さ
数式やコードスニペットの正誤判定機能
確率的デコーディング使用時の複数回試行

これらの観点から、lighteval は現時点で事後学習済みモデルの評価に最も適したフレームワークであると判断しました。

swallow-evaluation-instruct は、推論型モデルを含む事後学習済みの大規模言語モデルを対象とし、統一された条件のもとで性能を適切に測定できる新しい評価基盤です。本フレームワークは MIT License のもと公開しており、大規模言語モデルの研究者や開発者が利用できるように、ドキュメントも整備しています。このフレームワークが、日本の大規模言語モデル研究開発における透明性・再現性・拡張性を支え、より高度なモデルの発展に貢献することを願っています。

付記

大規模言語モデルSwallowの研究開発は、産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」、文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」、その他の支援によって実施されました。また、産総研及びAIST Solutionsが提供するABCI 3.0を「ABCI 3.0開発加速利用」を支援を受けて利用しました。本研究は、東京科学大学のスーパーコンピュータ TSUBAME4.0 も利用して実施しました。

Swallow LLM Leaderboard v2

更新履歴

背景

成果

総合スコア

タスク毎のスコア

評価フレームワーク: swallow-evaluation-instruct

付記

Get in touch