評価について

Swallowプロジェクトでは、高性能な大規模言語モデル (LLM) の開発の参考とするため、LLMの開発と並行して、公開されているLLMの評価実験を独自に進めています。日本国内のみならず、世界中で開発されたLLMと比較することで、Swallowプロジェクトの「現在地」を知ることができます。各LLMの独自仕様(トークン化やシステムプロンプトなど)を加味しながら公平な条件で評価を行い、各LLMの開発方法と照らし合わせることで、高性能なLLMを開発するための「レシピ」を検討できます。また、タスクの評価スコアの高低が、LLMに性能差によるものではなく、評価における些細な仕様(プロンプトのフォーマット等)に起因することを経験することで、LLM評価における課題も実感しています。このサイトでは、Swallowプロジェクト内で実施されたLLMの評価結果を棒グラフやレーダーチャート、散布図などで閲覧できます。用途にあったLLMを選択するための情報としてだけでなく、日本語に強いLLMの開発のための参考情報としてお役に立てると幸いです。

評価タスク

2024年度のSwallowプロジェクトでは、日本語理解・生成タスクとして10件のデータセット、日本語マルチターン対話タスクとして日本語MT-Bench、英語理解・生成タスクとして9件のデータセットを用い、LLMの評価実験を行っています。全てのタスクに関して、評価スコアは0 (最低) から1 (最高) までの範囲の値をとります。

日本語理解・生成タスク

JCom (JCommonsenseQA)
常識的な知識・推論に関する質問応答

知識ベースに基づいて作成された5択の選択式問題

JEMHopQA
マルチホップ質問応答

知識量や推論能力を評価するための自由記述式質問応答

NIILC
クラシカルな質問応答

百科事典で解答が得られそうな自由記述式質問応答

JSQuAD
機械読解

Wikipedia記事に対する自由記述式質問応答

XL-Sum
自動要約

イギリス国営放送(BBC)の記事本文からハイライト(要約)を生成するタスク

MGSM
数学(算数)

小学校の数学の文章題データセット(GSM8K)の日本語訳

WMT20 (en-ja)
英日機械翻訳

ニュース記事の翻訳

WMT20 (ja-en)
日英機械翻訳

ニュース記事の翻訳

JMMLU
マルチタスク言語理解

4値選択式試験問題のベンチマークMMLUの日本語訳(53科目)

JHumanEval
コード生成

コード生成能力のベンチマークHumanEvalの日本語訳

日本語マルチターン対話タスク(日本語MT-Bench)

マルチターン対話能力のベンチマークMT-Benchの日本語版である日本語MT-Bench Nejumi Leaderboard Neo版を用いました。指示チューニングされたモデルのみ、GPT-4 (gpt-4-1106-preview) を用いて応答文を10段階で自動評価します。評価のカテゴリは以下の通りです。

Coding
コード生成
Extraction
情報抽出
Humanities
人文科学
Math
数学
Reasoning
推論
Roleplay
ロールプレイ
STEM
科学・技術・工学・数学
Writing
執筆

なお、我々の日本語MT-Benchの評価結果が外部リーダーボードの評価結果よりも低いことが確認されています。多くの外部リーダーボードが応答文の評価にGPT-4 (gpt-4-0613) を利用していますが、我々はGPT-4 (gpt-4-1106-preview) を利用しているため、このスコアの相違を引き起こしていると推測されます。調査の結果、我々と外部リーダーボードの評価結果には大きな差異があるものの、モデル間の順位はほとんど変わらないことが分かりました。そのため、(すでに多くの評価を完了していたこともあり)GPT-4のバージョンを変更せず評価を続行しました。

英語理解・生成タスク

OpenBookQA
事実と常識に基づく質問応答

科学的な知識と常識に基づく4択の選択式問題

TriviaQA
知識に基づく質問応答

雑学的な知識に基づく自由記述式質問応答

HellaSwag
常識推論

次に起こるイベントを予測する4択の選択式問題

SQuAD2
機械読解

根拠文書に対して作成された自由記述式質問応答

XWINO
常識推論

文中の代名詞の先行詞を推定する2択の選択式問題

MMLU
マルチタスク言語理解

57科目からなる4値選択式の試験問題

GSM8K
数学(算数)

小学校の数学の文章題データセット

BBH (BIG-Bench-Hard)
LLMにとって難しいタスクのコレクション

BIG-Benchデータセット (Srivastava et al., 2023) の中でも難易度の高い23件のタスク

HumanEval
コード生成

単体テストによるコード生成能力の評価

評価に用いたツール

評価に用いたソフトウェアは以下の通りです。

LLM-jp 評価スクリプト (1.3.0)

日本語の大規模言語モデルの自動評価ツール

(Hanら, 2024)
JP Language Model Evaluation Harness (commit #9b42d41)

日本語の大規模言語モデルの評価フレームワーク

https://github.com/Stability-AI/lm-evaluation-harness/
Language Model Evaluation Harness (0.4.2)

大規模言語モデルの評価フレームワーク

(Biderman et al., 2024)
Code Generation LM Evaluation Harness (commit #0261c52)

コード生成(HumanEval)の評価フレームワーク

https://github.com/bigcode-project/bigcode-evaluation-harness
FastChat (commit #e86e70d0)

LLMによる自動評価(MT-Bench)のフレームワーク

https://github.com/lm-sys/FastChat
swallow-evaluation

上記5つのツールを統合・改修した、Swallowプロジェクトで用いた評価フレームワーク

https://github.com/swallow-llm/swallow-evaluation

評価したモデル

アルファベット順で掲載しています。

Name Size Type Distribution Missing scores
C4AI Command-R v0.1 35 base CohereForAI/c4ai-command-r-v01
CyberAgentLM2-7B-chat 7 instruct cyberagent/calm2-7b-chat
CyberAgentLM2-7B 7 base cyberagent/calm2-7b
ELYZA-japanese-Llama-2-13b 13 base elyza/ELYZA-japanese-Llama-2-13b
Fugaku-LLM 13B 13 base Fugaku-LLM/Fugaku-LLM-13B
GPT-3.5 (gpt-3.5-turbo-0125) NaN instruct gpt-3.5-turbo-0125 Japanese tasks, English tasks
GPT-4o (gpt-4o-2024-05-13) NaN instruct gpt-4o-2024-05-13 Japanese tasks, English tasks
Japanese Stable LM Base Gamma 7B 7 base stabilityai/japanese-stablelm-base-gamma-7b
Japanese Stable LM Beta 7B 7 base stabilityai/japanese-stablelm-base-beta-7b
Japanese Stable LM Beta 70B 70 base stabilityai/japanese-stablelm-base-beta-70b
KARAKURI LM 70B Chat v0.1 70 instruct karakuri-ai/karakuri-lm-70b-chat-v0.1
KARAKURI LM 70B v0.1 70 base karakuri-ai/karakuri-lm-70b-v0.1
LLM-jp-13B v2.0 13 base llm-jp/llm-jp-13b-v2.0
Llama 2 7B 7 base meta-llama/Llama-2-7b-hf
Llama 2 13B 13 base meta-llama/Llama-2-13b-hf
Llama 2 70B 70 base meta-llama/Llama-2-70b-hf
Llama 3 8B Instruct 8 instruct meta-llama/Meta-Llama-3-8B-Instruct
Llama 3 70B Instruct 70 instruct meta-llama/Meta-Llama-3-70B-Instruct
Llama 3 8B 8 base meta-llama/Meta-Llama-3-8B
Llama 3 70B 70 base meta-llama/Meta-Llama-3-70B
Llama 3 Swallow 8B Instruct 8 instruct tokyotech-llm/Llama-3-Swallow-8B-v0.1
Llama 3 Swallow 70B Instruct 70 instruct tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1
Llama 3 Swallow 8B 8 base tokyotech-llm/Llama-3-Swallow-8B-v0.1
Llama 3 Swallow 70B 70 base tokyotech-llm/Llama-3-Swallow-70B-v0.1
Llama 3 Youko 8B 8 base rinna/llama-3-youko-8b
Llama-3-ELYZA-JP-8B 8 instruct elyza/Llama-3-ELYZA-JP-8B
Mistral-7B-v0.1 7 base mistralai/Mistral-7B-v0.1
Mistral-7B-v0.2 7 base mistral-community/Mistral-7B-v0.2
Mixtral-8x7B-Instruct-v0.1 47 instruct mistralai/Mixtral-8x7B-Instruct-v0.1
Mixtral-8x7B-v0.1 47 base mistralai/Mixtral-8x7B-v0.1
Qwen1.5-7B 7 base Qwen/Qwen1.5-7B
Qwen2-7B-Instruct 7 instruct Qwen/Qwen2-7B-Instruct
Qwen2-72B-Instruct 72 instruct Qwen/Qwen2-72B-Instruct
Qwen2-7B 7 base Qwen/Qwen2-7B
Qwen2-72B 72 base Qwen/Qwen2-72B
RakutenAI-7B-chat 7 instruct Rakuten/RakutenAI-7B-chat
RakutenAI-7B 7 base Rakuten/RakutenAI-7B
Sarashina2-7B 7 base sbintuitions/sarashina2-7b
Sarashina2-13B 13 base sbintuitions/sarashina2-13b
Swallow 7B 7 base tokyotech-llm/Swallow-7b-hf
Swallow 13B 13 base tokyotech-llm/Swallow-13b-hf
Swallow 70B 70 base tokyotech-llm/Swallow-70b-hf
Swallow-7b-instruct-v0.1 7 instruct tokyotech-llm/Swallow-7b-instruct-v0.1
Swallow-MS v0.1 7 base tokyotech-llm/Swallow-MS-7b-v0.1
Swallow-MS-7b-instruct-v0.1 7 instruct tokyotech-llm/Swallow-MS-7b-instruct-v0.1
Swallow-MX 8x7B v0.1 47 base tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
Yi-1.5 6B 6 base 01-ai/Yi-1.5-6B
Yi-1.5 9B 9 base 01-ai/Yi-1.5-9B
Yi-1.5 34B 34 base 01-ai/Yi-1.5-34B
Youri 7B 7 base rinna/youri-7b

評価の苦労話

評価の実行環境が多様

Swallowプロジェクトでは、大規模言語モデルの評価のため、AI Bridging Clud Infrastructure (ABCI) のAノード(NVIDIA A100)の他、東京工業大学のTSUBAME 4.0 (NVIDIA H100)、岡崎研究室内の計算サーバ(NVIDIA RTX A6000)、横田研究室内の計算サーバ(NVIDIA A100, RTX 6000 Ada, A6000など)が使われています。まとまった大規模なGPU計算資源は大規模言語モデルの学習に割り当てることになりますので、モデルの評価は学習環境の予備ノードや、クラウド計算環境の通常利用枠、研究室内の計算資源などでやりくりをします。さらに、規模の異なる多数のモデルに対して、19~27個のタスクで評価を行いますので、評価実験は8名くらいの学生で分担しています。したがって、計算環境と評価者の掛け算で、20~30個の評価環境が使われることになります。

(J)HumanEvalの評価にdocker環境が必要

(J)HumanEvalでは、大規模言語モデルが生成したコードを実際に実行するため、dockerを用いてサンドボックス環境を作る必要があります。ところが、ABCIはdockerに対応していないため、(J)HumanEvalの評価は別の実行環境で行う必要がありました(ABCIでは代わりにsingularityが利用できますが、今回の評価実験では採用しませんでした)。

実行環境によって評価スコアが変動する

乱数シードの固定など、評価の再現性を担保するための対策を講じていますが、それでも実行環境によって評価スコアが変動することを観測しています。評価スコアの有効数字3桁目以降は、再現性の担保が困難な状況にあります。

実行環境によってエラーが発生する

XL-Sumのタスクで、以下のエラーに遭遇することがあります。

  File "/.../.venv_harness_jp/lib/python3.10/site-packages/transformers/models/llama/modeling_llama.py", line 1184, in forward
    logits = logits.float()
RuntimeError: CUDA error: unspecified launch failure
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

この問題はtransformersのversionを上げることで解決しました。

Llama 3にはtransformers 4.40.0以降が必要

Llama 3に対応したtransformersのバージョンは4.40.0以降です。そのため、評価を行うときは、評価担当者のtransformersのバージョンが4.40.0以降になるように指定する必要がありました。また、4.39.3以前のtransformersはLlama 3のtokenizer.jsonを正しく扱えないため、学習データのトークン化もtransformersのバージョンが4.40.0以降を使う必要があり、学習データの準備のやり直しが発生しました。

稀に評価が途中でハングアップする

評価タスクの実行が途中で止まってしまうことがあります。正確には、特定のモデル、タスク、事例において、モデルの出力が停止し、いつまでたっても評価が終わらないという状況に遭遇することがあります。この現象は実行環境を変えると解消することがあるため、Pythonやtransformersのバージョンによる微妙な挙動の違いを疑っていますが、現段階では原因を特定できていません。

GPUのメモリ不足によるエラー

評価したいモデルのサイズやタスクによっては、メモリ不足(out of memory)が発生することがあります。このような場合は、バッチサイズを下げる必要があり、時にはバッチサイズを1に設定することもあります。ところが、それでもメモリ不足が解消しないことがあり、そのような場合はより多くのメモリを積んだGPUの実行環境に変更するなど、対処が必要になります。

評価のジョブが打ち切られる

Swallowプロジェクトではたくさんの評価実験を行っていますが、自分たちが開発しているモデルのハイパーパラメータ調整の実験では、評価結果をできるだけ早く知りたい場合があります(本実験にできるだけ早く移行したいため)。逆に、他で開発されたモデルの評価は、さほど急ぐ必要がありません。このように、評価実験にも優先度があります。ところで、ABCIにジョブを投入する場合、実行時間を短く指定した方がジョブが早く実行されます。ABCIは大変混雑していますので、評価実験を行う担当者は、各タスクの評価実験にかかる実行時間を予測し、ジョブの投入時に経過時間制限値を設定します。ところが、何らかの要因で評価タスクの実行時間が長くなってしまうと、無慈悲にも設定した経過時間でジョブの実行が打ち切られ、評価実験が未完了となります。一部の評価タスクでは、評価中に結果をキャッシュしておくことで、ジョブの実行が打ち切られた場合でも続きから評価が再開できるような対策を講じました。

MT-Benchの評価でOpenAIのAPIを呼び出すときにRateLimitErrorが発生した

MT-Benchの評価では、GPT-4のAPIを呼び出す必要があります。MT-Benchの評価を並列で実行すると、OpenAI APIのRateLimitErrorが高頻度で発生し、retry回数の上限を超えてしまい正しく評価が行えないことがありました。FastChatの実装では、retry回数の上限を超えた際はエラーを出すのではなくスコアを-1として記録するため、最終結果のスコアを見るだけでは気づきにくい状況にありました。最終的にはretryの処理を工夫することで、この問題に対処しました。

一部のモデルの評価が正しく行えない

他で開発されたモデルを評価しているとき、過去に自分たちで実施した評価や外部のリーダーボードの評価を大幅に下回るスコアに出くわすことがありました。このようなことが複数のモデルにおいて発生するうえ、その現象を引き起こし得る原因がいくつも考えられる(先ほどのtransformersのバージョンによる動作の違い、評価ソフトウェアのバージョンアップに伴うプロンプトの違い等)ため、評価スコア低下の原因を特定し、デバッグをするのは困難です。そこで、モデルの評価で問題が発生した場合は、Swallowプロジェクトで開発しているモデルと規模や性能で競合する場合だけ原因を特定し修正することにし、競合しないと思われるモデルの評価は優先順位を下げ、場合によっては断念しました。

確率的デコーディングが意図せずに使われていた

2024年度のSwallowプロジェクトで採用している評価フレームワークで初代Swallowモデルの評価をやり直したとき、いくつかのタスクで以前よりも10ポイントくらい低いスコアが出ることがありました。これは、論文やウェブサイト等で報告していたスコアが間違っている可能性を示唆していますので、我々にとって深刻な問題です。結局、この現象は評価ソフトウェアのバージョンアップに伴う初期設定の変更によるものでした。

大規模言語モデルで出力を予測するときは、出力単語の確率分布を計算して、確率の高い単語を選びます。このとき、最も高い確率が計算された単語を出力するのが基本ですが、出力の多様性を高めるため、大規模言語モデルの応用では確率分布に従って単語をサンプリングする手法(確率的デコーディング)が用いられます。ところが、確率的デコーディングを多値選択式質問応答の回答生成に使ってしまうと、(よくデキるモデルでは)正解率が下がります。例えば、「はい」「いいえ」の2択問題を解いているとき、言語モデルが「はい」の確率を80%、「いいえ」の確率を20%と予測した状況を考えましょう。「はい」という答えに比較的自信を持っているようですので、「はい」と答えるのが合理的ですが、確率的デコーディングでは20%の確率で「いいえ」と答えることになります。つまり、回答にある程度自信を持っていたとしても、それとは異なる回答をわざと行うことになります。

出力単語の確率分布の形状は温度パラメータによって変わりますし、大規模言語モデルによっては推奨される温度パラメータがモデルの設定ファイルで指定されていることがあります。評価スコアを安定させるためには、(コード生成や対話などの生成系のタスクを除き)多値選択式のタスクでは確率的デコーディングを使わず、貪欲的デコーディング(最も高い確率が計算された単語を出力すること)を採用することが望ましいです。そのため、大規模言語モデルの評価ソフトウェアでは、しばしば貪欲デコーディングを大規模言語モデルに強制することがあります。我々が経験したケースでは、llm-jp-eval v1.0.0では初期設定の温度パラメータが0.1だったため、貪欲デコーディングに近い状態になっていましたが、v1.3.0でその設定が削除されたため、確率的デコーディングがデフォルトになっているモデルでは、特定のタスクの評価スコアが低下しました。この問題を解決するため、貪欲デコーディングを強制するように修正してすべてのモデルを再評価しました。

(J)HumanEvalではプロンプトの末尾に改行が必要だった

Swallowプロジェクトでは2024年度からコード生成タスクをモデルの評価に採用しました。これは、コード生成タスクが大規模言語モデルの論理的思考力を鍛えると期待していることに加え、初代Swallowがコード生成タスクに弱かったことが理由です。

ところが、Llama 3 Swallowの開発を進める中で、JHumanEvalやHumanEvalの評価スコアは8Bのモデルよりも70Bのモデルの方が悪いことに気づきました。Llama 3をHumanEvalで評価してみると、pass@1が0.28 (8B) および0.16 (70B) となり、8Bのモデルよりも70Bのモデルが苦戦しています。この問題を調査していくと、プロンプトの末尾が"""\nで終わるならコードが生成されますが、"""で終わる場合は[EOS]が生成され、コードが生成されない傾向があることが分かりました(三重引用符"""はPythonのドキュメンテーション文字列の開始と終了を表すことが多く、コード生成の指示やテストケースの末尾によく出現します)。さらに細かく調べていくと、Llama 3は""", [SPC]""", [SPC]"""\n, [SPC]"""\n\nをそれぞれ異なる単独のトークンにエンコードしており、この扱いかたに原因があるのかもしれません。

HumanEval, JHumanEvalの元々のデータでは、プロンプトの末尾に改行が付加されています。ところが、Code Generation LM Evaluation Harnessのデフォルトの実行条件では末尾の改行が除去されます。正確には、末尾の改行を除去するか否かを選べるようになっています( --tasks=humaneval-unstripped を指定すると除去されません)。先に説明した通り、改行の有無でコード生成が変わる問題はトークン化に起因するものと考えられ、実際に多くのモデルではどちらでもかまわないようです。しかし評価の条件をそろえるのが望ましいという原則を鑑みて、(J)HumanEvalは改行を付与するように修正してすべてのモデルを再評価しました。

生成の冒頭に改行を出力するモデルがある

Sarashina2 7Bと13Bをllm-jp-evalで評価しているとき、特定のタスクで評価スコアが0点になることに気づきました。これは、モデルが生成の冒頭に改行文字\nを出力することが原因で、JMMLUのように出力の完全一致で評価するタスクでは致命的です。Swallowプロジェクトの評価実験では、Sarashina2の出力に対して空白や改行を除去する処理を追加して評価を行っています。

謝辞

このウェブサイトは、以下のソフトウェアを用いて構築されました。