Datasets
Swallow-Nemotron-Post-Training-Dataset-v1
Japanese and English reasoning instruction tuning dataset based on Nemotron-Post-Training-Dataset-v1. Synthesized with Japanese/English responses and English thinking trajectories. Licensed under CC-BY-4.0.
LMSYS-Chat-1M-Synth
Synthetic instruction tuning dataset in Japanese and English, based on LMSYS-Chat-1M. The license depends on the LLM used for responses generation.
s1-test-time-scaling-synth
A reinforcement learning dataset in Japanese and English. This dataset is built upon the supervised fine-tuning dataset developed in "s1: Simple test-time scaling" (Muennighoff+, EMNLP25) The dataset includes translated questions, extracted answers, and answerability annotations.
Software
International Conferences
Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, and Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. In The Fourteenth International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, April 2026a.
Kazuki Fujii and Rio Yokota. Swallow LLM: Continual Pre-Training and RL for Sovereign AI, Talk at NVIDIA GTC 2026, San Jose, CA, March 2026. Session ID: S81710, March 2026b.
Kazuki Fujii, Kei Sasaki, Daisuke Miyamoto, and Keita Watanabe. Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod, June 2025.
Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, and Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. In Proceedings of the Second Conference on Language Modeling (COLM), page (17 pages), Montreal, Canada, October 2025.
Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, and Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs. In The 1st Workshop on Multilingual and Equitable Language Technologies (MELT), page (24 pages), Montreal, Canada, October 2025.
Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), page (25 pages), University of Pennsylvania, USA, October 2024.
Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, and Sakae Mizuki. Building a Large Japanese Web Corpus for Large Language Models. In Proceedings of the First Conference on Language Modeling (COLM), page (18 pages), University of Pennsylvania, USA, October 2024.
Domestic Conferences
Kazuki Fujii. Amazon SageMaker HyperPod を利用した日本語 LLM (Swallow) の構築(CUS-02), 2025年6月.
Youmi Ma, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 島田比奈理, 塩谷泰平, 齋藤幸史郎, 前田航希, 服部翔, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), Q8-21, pp. 3446–3451, 出島メッセ長崎, 2025年3月.
服部翔, 岡崎直観, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 塩谷泰平, 齋藤幸史郎, Youmi Ma, 前田航希, 岡本拓己, 石田茂樹, 横田理央, 高村大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99, 出島メッセ長崎, 2025年a年3月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 新聞記事からつくる 時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), C10-1, pp. 3948–3953, 出島メッセ長崎, 2025年b年3月.
岡崎直観, 服部翔, 平井翔太, 飯田大貴, 大井聖也, 藤井一喜, 中村泰士, Mengsay Loem, 横田理央, 水木栄. Swallowコーパス: 日本語大規模ウェブコーパス. 言語処理学会第30回年次大会 (NLP2024), A6-1, pp. 1498–1503, 神戸国際会議場, 2024年3月.
水木栄, 飯田大貴, 藤井一喜, 中村泰士, Mengsay Loem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観. 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用. 言語処理学会第30回年次大会 (NLP2024), A6-4, pp. 1514–1519, 神戸国際会議場, 2024年3月.
藤井一喜, 中村泰士, Mengsay Loem, 飯田大貴, 大井聖也, 服部翔, 平井翔太, 水木栄, 横田理央, 岡崎直観. 継続事前学習による日本語に強い大規模言語モデルの構築. 言語処理学会第30回年次大会 (NLP2024), A8-5, pp. 2102–2107, 神戸国際会議場, 2024年3月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 馬尤咪, 前田航希, 塩谷泰平, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 小規模で高性能なLLMのための高品質事前学習Webコーパスの構築. 第19回YANSシンポジウム (YANS2024), S3-P33, 梅田スカイビル, 2024年9月.
齋藤幸史郎, 水木栄, 大井聖也, 中村泰士, 塩谷泰平, 前田航希, 馬尤咪, 服部翔, 藤井一喜, 岡本拓己, 石田茂樹, 高村大也, 横田理央, 岡崎直観. LLMに日本語テキストを学習させる意義. 情報処理学会 第261回自然言語処理研究会 研究報告 (2024-NL-261), 12, pp. 1–15, 梅田スカイビル, 2024年9月.