- 2025-06-25: Llama 3.1 Swallow 8B v0.5を公開しました。Llama 3.3 Swallow 70B v0.4で採用された最新のレシピに改良を加えたうえでLlama 3.1 8Bの継続事前学習を行い、モデルの性能を高めました。なお、70BのモデルとしてはLlama 3.1よりもLlama 3.3の方が性能が高いので、Llama 3.1 70Bベースのモデルは構築していません。したがって、8BのモデルはLlama 3.1 Swallow 8B v0.5、70BのモデルはLlama 3.3 Swallow 70B v0.4が最新のモデルになります。
- Llama 3.1 Swallow 8B Instruct v0.5: https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5
- Llama 3.1 Swallow 8B v0.5: https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-v0.5
Llama 3.1 Swallow 8B Instruct v0.5のライセンスは米Meta社のLlama 3.3ライセンスを継承しています。 Llama 3.3ライセンスに従い、なおかつGemma利用規約の利用制限に抵触しない範囲で、研究や商業目的などで利用できます。
Swallowプロジェクトでは、汎用性が高く日本語に強い大規模言語モデルを目指して研究開発を進めています。 2025年3月に公開したLlama 3.3 Swallow 70B v0.4は、継続事前学習や事後学習のレシピを改良することで、GPT-4oに迫る性能を達成することができました。 このレシピを採用してLlama 3.1 Swallow 8Bをアップデートしたのが、今回公開したLlama 3.1 Swallow 8B v0.5です。
8Bベースモデル
Swallowチームの最新のレシピを採用することで、Llama 3.1 Swallow 8Bの性能はどこまで伸びるのでしょうか? Swallowチームでいつも用いている10種類の日本語の理解・生成ベンチマークで、日本語に対応した10B以下のオープンなLLMを比較します。 今回比較するのは、llm-jp-3-7.2b (7.3B), Sarashina2-7B (7.3B), Llama 3.1 8B (8.0B), Llama 3.1 Swallow 8B v0.2 (8.0B), Llama 3.1 Swallow 8B v0.5 (8.0B), Qwen3-8B-Base (8.2B), PLaMo 2 8B (9.1B), Gemma-2-Llama Swallow 9B (9.2B) の8個のモデルです。
評価結果の要点は以下の通りです。
- 日本語の理解・生成ベンチマークの平均スコアの高い順に、Gemma-2-Llama Swallow 9B (0.558)、Qwen3-8B-Base (0.551), Llama 3.1 Swallow 8B v0.5 (0.543) であった。
- Llama 3.1 Swallow 8B v0.2とLlama 3.1 Swallow 8B v0.5を比較すると、Llama 3.1 Swallow 8B v0.5は10タスク中8タスクでスコアを伸ばし、特にコード生成(JHumanEval, +0.155)、数学(MGSM, +0.108)、一般教養(JMMLU, +0.065)の伸びが顕著。残りの2タスクのスコアはほぼ変わらないので、今後はv0.2の代わりにv0.5を用いるのがよい。
- Qwen3-8B-BaseとLlama 3.1 Swallow 8B v0.5を比較すると、数学(MGSM)、一般教養(JMMLU)、コーディング(JHumanEval)はQwen3-8B-Baseが強いが、日本語の質問応答 (JComQA, NIILC)、日英・英日機械翻訳(WMT20)ではLlama 3.1 Swallow 8B v0.5が強い。
したがって、数学やコーディングに強いモデルが必要であればQwen3-8B-Base、日本語の能力が高いモデルが必要であればGemma-2-Llama Swallow 9BまたはLlama 3.1 Swallow 8B v0.5を選択するとよいでしょう。
※ PLaMo 2 8Bはプロンプトの末尾に改行を付与するかどうかでJHumanEvalのスコアが大きく変動します。Swallowプロジェクトの評価ではプロンプトの末尾に改行を追加することになっていますが、改行を付与しない場合にはPLaMo 2 8BのJHumanEvalのスコアは0.213から0.397に向上します。 SwallowプロジェクトではすべてのLLMに対して同一の評価条件を採用しているため、先ほどの評価結果では改行を付与した場合のスコアを採用しています。
8B事後学習モデル
続いて、事後学習モデルであるLlama 3.1 Swallow 8B Instruct v0.5の性能を日英の言語理解・生成タスク、および日本語MT-Benchで測定しました(ジャッジはgpt-4o-2024-08-06)。 比較するのは、llm-jp-3-7.2b-instruct3, Qwen2.5-7B-Instruct, Llama 3.1 8B Instruct, Llama 3.1 Swallow 8B Instruct v0.3, Llama 3.1 Swallow 8B Instruct v0.5, Gemma 2 9B IT, Gemma-2-Llama Swallow 9B ITで、さらにGemma-2-Llama Swallow 27B IT, Llama 3.3 Swallow 70B Instruct v0.4の結果も参考として載せます。 なお、現状のフレームワークでは思考の深いモデルの評価が正当に行えないことが分かっていますので、DeepSeek-R1の蒸留モデルやQwen3は評価対象外とします(Swallowチームでは事後学習済みLLM向けに評価フレームワークの刷新作業を進めています)。
評価結果の要点は以下の通りです。
- 日本語MT-Benchの平均スコアの高い順に、Gemma-2-Llama Swallow 9B IT (0.749)、Gemma 2 9B IT (0.736), Llama 3.1 Swallow 8B Inst v0.5 (0.719) であった。
- Llama 3.1 Swallow 8B Inst v0.3とLlama 3.1 Swallow 8B Inst v0.5を比較すると、v0.5は日本語理解・生成タスク、英語理解・生成タスク、日本語MT-Benchの平均スコアが上昇しており、大幅に劣化したタスクも見受けられないので、今後はv0.3の代わりにv0.5を用いるのがよい。
この評価結果から、この規模のLLMとしてはGemma-2-Llama Swallow 9B ITやLlama 3.1 Swallow 8B Instruct v0.5が有望と言えますが、まだ評価を実施できていないQwen3-8Bも高い性能を示すと予想されますので、これらのモデルの差異を実際に調べた上で利用するとよいと思います。
Llama 3.1 Swallow 8B v0.5は以下の手順で構築されています。
- Llama 3.1 Swallow 8B v0.5ベースモデル: Llama 3.1 8Bに対して継続事前学習 (Fujii et al., 2024) を行う(語彙拡張は無し)
- Llama 3.1 Swallow 8B v0.5指示チューニングモデル: Llama 3.1 Swallow v0.5ベースモデルに教師ありファインチューニング(SFT)を行う
継続事前学習で用いたコーパスは以下の通りです。
- Cosmopedia
- Dclm-baseline-1.0
- English Wikipedia
- Japanese Wikipedia
- Laboro ParaCorpus
- Swallow Corpus Version 2から厳選した教育的価値の高いテキスト
- Swallow Education ClassifierのWikipediaベース分類器によるトップ10%
- Swallow Education ClassifierのLLMベース分類器によるトップ10%
- 教育的価値の高いテキストからGemma 2 27B ITで合成したQA形式の日本語合成テキスト
- Swallow Code Version 1
- Swallow Math Version 1
なお、今回の継続事前学習にはAmazon Web Services (AWS) のSageMaker HyperPod (H200 x 4ノード) を利用しました。
指示チューニングでは以下のデータを用いました。
このデータはlmsys-chat-1mの指示を日本語に翻訳し、Gemma 3 27B ITで応答を自動生成することで作成しています。Swallowチームで今回新たに開発・採用した指示チューニングデータです。
参考文献
- Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
- Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, and Sakae Mizuki. Building a Large Japanese Web Corpus for Large Language Models. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
- 服部 翔, 岡崎 直観, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 塩谷 泰平, 齋藤 幸史郎, Youmi Ma, 前田 航希, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99, 2025年3月.
- Youmi Ma, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 島田 比奈理, 塩谷 泰平, 齋藤 幸史郎, 前田 航希, 服部 翔, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), Q8-21, pp. 3446–3451, 2025年3月.
大規模言語モデルSwallowの研究開発は、産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の「次世代人工知能・ロボットの中核となるインテグレート技術開発」プロジェクト(JPNP18002)の「熟練者観点に基づき、設計リスク評価業務における判断支援を行う人工知能適用技術の開発」、文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」、文部科学省科学研究費基盤A「教育的価値の高い日本語コーパスの構築による小規模言語モデル」 (25H01137)、その他の支援によって実施されました。