GPT-OSS Swallow

特徴

高性能な推論型LLM

20Bと120Bのモデルはそれぞれ、同規模以下のオープンなLLMの中で最高性能を達成しました（2026年2月時点）。

オープンなLLM

モデルの重みが公開されていますので、情報漏洩の心配がないオンプレミス環境での実行や、タスク・ドメインに特化したチューニングが可能です。

推論型モデルに特化したレシピ

推論力の強化に向けて、継続事前学習、教師ありファインチューニング（SFT）、強化学習の全段階のレシピを刷新しました

寛容なライセンス

商用・研究用途を問わず自由に利用できる Apache 2.0 ライセンスを採用するため、訓練データの厳選や再合成を行いました。

推論型LLMの最新版

公開モデル

推論モードはmediumでお使いください

20B RL v0.1

完全版（強化学習あり）

HuggingFace

120B RL v0.1

完全版（強化学習あり）

HuggingFace

20B SFT v0.1

試験版（強化学習なし）

HuggingFace

120B SFT v0.1

試験版（強化学習なし）

HuggingFace

更新履歴

2026-02-20: 初期バージョン（v0.1）を公開。

性能

20Bモデル

GPT-OSS Swallow 20B RLの性能を以下のLLMと比較しました。評価には大規模言語モデル評価フレームワークであるswallow-evaluation-instructを用いました。なお、この評価結果はSwallow LLM Leaderboard v2でもご覧いただけます（その他のLLMを比較に追加できます）。

Gemma 3 27B IT（非推論型ではあるが規模がやや大きいモデル）
Qwen3-14B（規模が近い推論型モデル、深い推論はon）
gpt-oss-20b（継続学習元、深い推論のレベルはmedium）
gpt-oss-120b（規模がワンランク大きいモデル、深い推論のレベルはmedium）

GPT-OSS Swallow 20Bの日本語タスクの平均スコアは0.606で、総パラメータ数が20B以下のオープンなLLMの中で最高性能を達成しました。基にしたgpt-oss-20bと比較すると、ほぼ全てのタスクで性能向上が得られました（コーディングタスクのJHumanEvalだけ、誤差の範囲内の僅かなスコア低下がありました）。特に、日本に関する知識量を測定するJamC-QAでは、+13.0ポイントの顕著な性能向上が得られ、日本語データでの学習の効果が伺えます。また、推論型モデル向けのベンチマークである日本語GPQAでも+4.2ポイントの改善が見られることから、推論力を強化できたことが分かります。なお、グラフでは示していませんが、日本語MT-Benchの平均スコアは0.872で、この規模のLLMとしては非常に高い対話能力を有しています。

GPT-OSS Swallow 20Bの英語タスクの平均スコアは0.788で、こちらも総パラメータ数が20B以下のオープンなLLMの中で最高性能を達成しました。基にしたgpt-oss-20bと比較では、性能が向上したタスクと低下したタスクの両方がありますが、特に、米国数学オリンピック (AIME 24-25) では+23.3ポイントもの大幅な性能向上を達成しました。

120Bモデル

GPT-OSS Swallow 120Bの性能を以下のLLMと比較しました。評価には大規模言語モデル評価フレームワークであるswallow-evaluation-instructを用いました。なお、この評価結果はSwallow LLM Leaderboard v2でもご覧いただけます（その他のLLMを比較に追加できます）。

Qwen3-Next-80B-A3B-Thinking（規模が近い推論型モデル、深い推論はon）
gpt-oss-120b（継続学習元、深い推論のレベルはmedium）
Qwen3-235B-A22B-Thinking-2507（より規模が大きい推論型モデル、深い推論はon）
GPT-5 mini (gpt-5-mini-2025-08-07)（現行の商用モデルの中で性能が近いモデル、深い推論のレベルはmedium）

GPT-OSS Swallow 120Bの日本語タスクの平均スコアは0.642で、総パラメータ数が120B以下のオープンなLLMの中で最高性能を達成しました。基にしたgpt-oss-120bと比較すると、ほぼ全てのタスクで性能向上が得られました（数学のMATH-100だけ、正答数が1問違いの僅かなスコア低下がありました）。特に、日本に関する知識量を測定するJamC-QAでは、+11.4ポイントの顕著な性能向上が得られ、日本語データでの学習の効果が伺えます。また、推論型モデル向けのベンチマークである日本語GPQAやMATH-100でも良好な結果が得られていることから、高い推論力を有していることが分かります。

なお、ここに示していませんが、日本語MT-Benchの平均スコアは0.916に達し、Swallowチームでこれまでに評価したLLMの中での最高値タイを記録しました（Qwen3-Next-80B-A3B-Instructが同点です）。このスコアはGPT-5.1 Thinking (gpt-5.1-2025-11-13) の0.897、Gemini 3 Pro Preview (gemini-3-pro-preview) の0.906よりも高く、いよいよ日本語MT-BenchでLLMの優劣をつけるのは難しくなりました。

GPT-OSS Swallow 120Bの英語タスクの平均スコアは0.804で、こちらも総パラメータ数が120B以下のオープンなLLMの中で最高性能を達成しました。基にしたgpt-oss-120bと比較では、性能が向上したタスクと低下したタスクの両方が見られますが、特に、米国数学オリンピック (AIME 24-25) では+15.0ポイントの性能向上を達成しました。一方で、GPQAでは-8.6ポイントの悪化を観測しており、この原因の究明は今後の課題にしたいと思います（貪欲法による文生成を用いた評価設定に起因している可能性があります）。

構築方法

GPT-OSS SwallowはOpenAI GPT-OSS 20Bおよび120Bを起点に、継続事前学習 (Continual Pre-Training; CPT)、教師ありファインチューニング (Supervised Fine-Tuning; SFT)、強化学習 (Reinforcement Learning; RL) の３段階で構築されています。すべての段階を経たGPT-OSS Swallow RLを完全版として公開していますが、強化学習適用前のGPT-OSS Swallow SFTも試験版として公開しています。なお、GPT-OSSは事後学習を施していないモデル（事前学習のみのモデル）が公開されていないため、事後学習が施されたモデルに対して継続事前学習を行っています。

大規模な計算資源を要する大規模言語モデルの開発では、学習の効率化がレシピ探求の高速化、ひいては性能やコストに影響する鍵となります。本モデルでは、これまでに蓄積した低精度学習や分散並列学習といった知見（Fujii+ 2024a, 2024b）を活用し、計算資源をより効率的に使えるよう最適化しました。具体的には、継続事前学習において、従来のPer-Tensor Scaling (Micikevicius+, 2022) ではなく、Per-Block Scalingを採用し、Hopper世代のGPUにおいてLinear層の計算をFP8 (E4M3) GEMMで実行することにより、20%の高速化を実現しました。GPT-OSS Swallowを開発するために利用したライブラリ、高速化手法、ハイパーパラメータについては、ブログ記事を参照ください。

継続事前学習 (CPT)

継続事前学習 (Fujii+, 2024) では、GPT-OSSの日本に関する知識や日本語での対話力を高めながら、英語力や数学・科学・プログラミングといった高度な推論能力を維持もしくは改善することを目指しました。継続事前学習のコーパスのサイズは400Bトークンとし、日本語・英語・数学・コーディングのデータをバランスよく配合しています。

学習データの半分近くを占めるのは、日本語の大規模ウェブテキストコーパスであるSwallowコーパス (Okazaki+, 2024) の最新版 (v3.2) です。このコーパスは2025年3月までにクローリングされたCommon Crawlのスナップショットから、日本語のウェブページを抽出し、重複除去と品質フィルタリングを適用することで構築されています。品質フィルタリングのために、GPT-OSS Safeguard 120B を模倣したn-gramベースの分類器を新たに開発しました。

日本語データとしては、他にSwallowコーパスから質問応答を合成したデータ (服部+, 2025) と日本語のWikipediaを用いました。英語のデータとしては、Nemotron-CC high quality actual (Su+, 2025)、Cosmopedia、英語のWikipediaを採用し、翻訳能力を改善する対訳データとしてLaboro ParaCorpusとkaken-trans-ja-enを用いました。数学とコーディングのデータとして、Swallowプロジェクトで新たに開発されたSwallowMath-v2とSwallowCode-v2 (Fujii+, 2026) を用いました。

また、元のモデルの対話能力と推論能力を維持しつつ、SFTとRLの効果を高めるために、推論過程を含む事後学習データを事前学習に組み込みました。指示チューニングの学習データとしてLMSYS-Chat-1Mをもとに推論過程と応答をGPT-OSSを用いて日本語および英語の二言語で合成したGPT-OSS-LMSYS-Chat-1M-Synth (Dung+, 2026)、数学・科学・コード生成ドメインにおける指示応答・推論の学習データとしてNemotron-Post-Training-Dataset-v1にGPT-OSSで推論過程と応答を合成したSwallow-Nemotron-Post-Training-Dataset-v1を用いました。

教師ありファインチューニング (SFT)

事後学習用のデータを継続事前学習でも用いているため、CPTモデルでも対話や深い推論は可能ですが、さらに汎用対話能力などを改善するために教師ありファインチューニング (SFT) を実施しました。試行錯誤の末に、継続事前学習でも用いたGPT-OSS-LMSYS-Chat-1M-SynthとSwallow-Nemotron-Post-Training-Dataset-v1を採用しました。

強化学習 (RL)

深い推論が必要なタスク、例えば科学質問応答 (GPQA) や数学 (AIME)、コード生成 (LiveCodeBench) の性能を高めるため、強化学習を適用しました。学習アルゴリズムとして、Group Relative Policy Optimization (GRPO) に Clip-Higher および Dynamic Sampling (Yu+ 2025)、Truncated Importance Sampling (TIS) (Yao+ 2025)、KL損失の削除、推論時と学習時のMoE専門家を一致させる Routing Replay (Zheng+ 2025) を適用したものを採用しています。学習データにはDolci-Think-RL-7Bの中で、ライセンスの問題がないことを自前で確認した数学サブセットを用い、報酬には最終解答の正誤を採用しました。いわゆる、検証可能な報酬を用いた強化学習 (Reinforcement Learning with Verifiable Rewards; RLVR) です。

発表文献

Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. 2024. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
Kazuki Fujii, Kohei Watanabe, and Rio Yokota. 2024. Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator. arXiv:2411.06465.
Kazuki Fujii, Taishi Nakamura, and Rio Yokota. 2024. Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs. arXiv:2411.08719.
Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, and Naoaki Okazaki. 2026. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. In The Fourteenth International Conference on Learning Representations (ICLR), April 2026.
Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, and Naoaki Okazaki. 2025. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. In Proceedings of the Second Conference on Language Modeling (COLM), October 2025.
Daisuke Nohara, Taishi Nakamura, and Rio Yokota. 2026. On the Optimal Reasoning Length for RL-Trained Language Models. arXiv:2602.09591.
Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, and Sakae Mizuki. 2024. Building a Large Japanese Web Corpus for Large Language Models. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
Nguyen Tien Dung, 水木栄, Youmi Ma, 片山結太, 岡崎直観. 2026. 推論型大規模言語モデルの蒸留による対話応答能力の改善. 2026年度人工知能学会全国大会（第40回）（投稿中）, 2026年6月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 2025. 新聞記事からつくる時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), 2025年3月.

参考文献

Paulius Micikevicius, Dusan Stosic, Neil Burgess, Marius Cornea, Pradeep Dubey, Richard Grisenthwaite, Sangwon Ha, Alexander Heinecke, Patrick Judd, John Kamalu, Naveen Mellempudi, Stuart Oberman, Mohammad Shoeybi, Michael Siu, and Hao Wu. 2022. FP8 Formats for Deep Learning. arXiv:2209.05433.
Feng Yao, Liyuan Liu, Dinghuai Zhang, Chengyu Dong, Jingbo Shang, Jianfeng Gao. 2025. Your Efficient RL Framework Secretly Brings You Off-Policy RL Training. Feng Yao’s Notion. August 2025.
Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, YuYue, Weinan Dai, Tiantian Fan, Gaohong Liu, Juncai Liu, LingJun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Ru Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Yonghui Wu, Mingxuan Wang. 2025. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. In Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS). December 2025.
Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin. Group Sequence Policy Optimization. arXiv:2507.18071, July 2025.

付記

大規模言語モデルSwallowの研究開発は、産総研政策予算プロジェクト「フィジカル領域の生成AI基盤モデルに関する研究開発」、文部科学省の補助事業「生成AIモデルの透明性・信頼性の確保に向けた研究開発拠点形成」、JSPS科研費 25H01137、その他の支援によって実施されました。また、産総研及びAIST Solutionsが提供するABCI 3.0を「ABCI 3.0開発加速利用」の支援を受けて利用しました。さらに、東京科学大学のスーパーコンピュータTSUBAME4.0を利用しました。