データセット

Swallow-Nemotron-Post-Training-Dataset-v1

日本語と英語のReasoning指示学習データセットです。Nemotron-Post-Training-Dataset-v1をベースに日本語と英語の応答および英語によるThinking Trajectoryを合成したもので、cc-by-4.0ライセンスで公開されています。

SwallowCode-v2

LLMのコーディング能力を効率よく高めるための学習データです。Apache 2.0ライセンスで公開されています。

SwallowMath-v2

LLMの数学能力を効率よく高めるための学習データです。Apache 2.0ライセンスで公開されています。

LMSYS-Chat-1M-Synth

日本語と英語の指示学習データセットです。LMSYS-Chat-1Mをベースに日本語と英語の応答を合成したもので、ライセンスは応答を合成したLLMによって異なります。

s1-test-time-scaling-synth

日本語と英語の強化学習データセットです。指示学習データセット S1 (Muenninghoff+, EMNLP25) をベースに、設問の邦訳、解答の抽出、および解答可能性のアノテーションを行ったものです。

SwallowCode

LLMのコーディング能力を効率よく高めるための学習データ(初期バージョン)です。Llama 3.3ライセンスで公開されています。

SwallowMath

LLMの数学能力を効率よく高めるための学習データ(初期バージョン)です。Llama 3.3ライセンスで公開されています。

ソフトウェア

swallow-evaluation-instruct

事後学習済み大規模言語モデルの評価フレームワーク

swallow-evaluation

事前学習済み大規模言語モデルの評価フレームワーク

doubri

文書の重複除去(文書集合の中で重複する文書を削除する)ツール

Swallow Education Classifier

文書の(LLMにとっての)教育的価値(品質)の推定器

Swallow Code Pipeline

SwallowCodeを構築するための書き換えパイプライン

国際会議発表

Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, and Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. In The Fourteenth International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, April 2026a.
Kazuki Fujii and Rio Yokota. Swallow LLM: Continual Pre-Training and RL for Sovereign AI, Talk at NVIDIA GTC 2026, San Jose, CA, March 2026. Session ID: S81710, March 2026b.
Kazuki Fujii, Kei Sasaki, Daisuke Miyamoto, and Keita Watanabe. Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod, June 2025.
Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, and Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. In Proceedings of the Second Conference on Language Modeling (COLM), page (17 pages), Montreal, Canada, October 2025.
Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, and Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs. In The 1st Workshop on Multilingual and Equitable Language Technologies (MELT), page (24 pages), Montreal, Canada, October 2025.
Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), page (25 pages), University of Pennsylvania, USA, October 2024.
Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, and Sakae Mizuki. Building a Large Japanese Web Corpus for Large Language Models. In Proceedings of the First Conference on Language Modeling (COLM), page (18 pages), University of Pennsylvania, USA, October 2024.

国内会議発表

Kazuki Fujii. Amazon SageMaker HyperPod を利用した日本語 LLM (Swallow) の構築(CUS-02), 2025年6月.
Youmi Ma, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 島田比奈理, 塩谷泰平, 齋藤幸史郎, 前田航希, 服部翔, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), Q8-21, pp. 3446–3451, 出島メッセ長崎, 2025年3月.
服部翔, 岡崎直観, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 塩谷泰平, 齋藤幸史郎, Youmi Ma, 前田航希, 岡本拓己, 石田茂樹, 横田理央, 高村大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99, 出島メッセ長崎, 2025年a年3月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 新聞記事からつくる 時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), C10-1, pp. 3948–3953, 出島メッセ長崎, 2025年b年3月.
岡崎直観, 服部翔, 平井翔太, 飯田大貴, 大井聖也, 藤井一喜, 中村泰士, Mengsay Loem, 横田理央, 水木栄. Swallowコーパス: 日本語大規模ウェブコーパス. 言語処理学会第30回年次大会 (NLP2024), A6-1, pp. 1498–1503, 神戸国際会議場, 2024年3月.
水木栄, 飯田大貴, 藤井一喜, 中村泰士, Mengsay Loem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観. 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用. 言語処理学会第30回年次大会 (NLP2024), A6-4, pp. 1514–1519, 神戸国際会議場, 2024年3月.
藤井一喜, 中村泰士, Mengsay Loem, 飯田大貴, 大井聖也, 服部翔, 平井翔太, 水木栄, 横田理央, 岡崎直観. 継続事前学習による日本語に強い大規模言語モデルの構築. 言語処理学会第30回年次大会 (NLP2024), A8-5, pp. 2102–2107, 神戸国際会議場, 2024年3月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 馬尤咪, 前田航希, 塩谷泰平, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 小規模で高性能なLLMのための高品質事前学習Webコーパスの構築. 第19回YANSシンポジウム (YANS2024), S3-P33, 梅田スカイビル, 2024年9月.
齋藤幸史郎, 水木栄, 大井聖也, 中村泰士, 塩谷泰平, 前田航希, 馬尤咪, 服部翔, 藤井一喜, 岡本拓己, 石田茂樹, 高村大也, 横田理央, 岡崎直観. LLMに日本語テキストを学習させる意義. 情報処理学会 第261回自然言語処理研究会 研究報告 (2024-NL-261), 12, pp. 1–15, 梅田スカイビル, 2024年9月.