日本語能力はGPT-4oに迫る!東京科学大チーム発の「Llama 3.3 Swallow」を徹底解説

開発支援
日本語能力はGPT-4oに迫る!東京科学大チーム発の「Llama 3.3 Swallow」を徹底解説

Llama 3.3 Swallowとは?日本語に特化したオープンAIモデルの全容

AIの進化が加速する中、日本語に強い大規模言語モデル(LLM)の開発が国内外で活発化しています。2025年3月10日、東京科学大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームが、Meta社のLlama 3.3をベースに日本語能力を強化した「Llama 3.3 Swallow」を公開しました。

分かりやすく言うと、Llama 3.3 Swallowは「日本語が得意な人工知能」です。Facebook(Meta)が作った基本の人工知能に、日本語をたくさん学習させて、日本語が上手に扱えるように改良したものと考えるとよいでしょう。

このAIは70Bパラメータ(700億の計算要素)を持つ大型モデルで、AI開発者向けサイト「HuggingFace」で誰でも利用できるように公開されています。注目すべきは、このモデルが研究目的だけでなく商業利用も可能なライセンス形態を採用している点です。つまり、企業が自社サービスに組み込んでお金を稼ぐことも許可されているのです。Meta社のLlama 3.3ライセンスを継承しており、Google社のGemma利用規約の制限に抵触しない範囲であれば、幅広い用途での活用が可能です。

GPT-4oに迫る日本語性能の実力

Llama 3.3 Swallowの最大の特徴は、日本語の理解・生成能力の高さです。研究チームが実施した評価では、Llama 3.3 Swallow 70B v0.4の日本語理解・生成タスクにおける平均スコアは0.629を記録。これはOpenAIの最新モデルGPT-4oの0.646に次ぐ2位の成績であり、別の高性能AIであるQwen2.5-72Bの0.623とほぼ同等の性能を示しています。

つまり、有料の最先端AIにかなり近い性能を持っているのです。

特に注目すべきは、次の3つの分野で比較対象のモデルの中で最高性能を達成した点です:

1.NIILC: 日本語の質問応答タスク(例:「日本の首都はどこですか?」のような質問に答える能力)

2.XL-Sum: 自動要約タスク(長い文章を要点を押さえて短くまとめる能力)

3.WMT20: 日英・英日両方向の機械翻訳(日本語と英語の相互翻訳能力)

例えば、NIILCタスクでは元のLlama 3.3 70B Instructの0.570から0.732へと16.2ポイントも上昇しています。これは、日本に関する百科事典的知識や日本語生成能力が大幅に向上したことを示しています。

一方、対話性能を測定する日本語MT-Benchでは、平均スコア0.772を記録。これはGPT-4oの0.848やQwen2.5-72B-Instructの0.835には届かないものの、人文科学やライティングなど知識や日本語に関するタスクでは高いスコアを示しています。

また、興味深い点として、海外製のAIは日本語での質問に対して英語で答えてしまうことがよくありますが、Llama 3.3 Swallow 70B Instruct v0.4は応答中の日本語文字の割合が72%程度と高く、しっかりと日本語で答えるよう調整されています。

独自の継続事前学習とデータセットの工夫

Llama 3.3 Swallowがこのような高い日本語能力を獲得できた背景には、特別な学習方法があります。

研究チームは、まずインターネット上の膨大なデータ(Common Crawl)から約2547億ページをダウンロードし、その中から日本語と思われる約83億ページ(約12兆文字の日本語テキスト)を抽出しました。重複を除いた日本語ウェブページは、19億ページ(3.2兆文字)というとてつもない量になりました。

しかし単に大量のデータを与えるだけでは、質の高いAIは作れません。ここで研究チームが行った工夫が重要です。彼らは「教育的価値の高いテキスト」だけを選び出しました。

人間も良質な本を読むほど知識が増えるように、AIも良質なデータから学ぶほど賢くなります。Swallow Education Classifierと呼ばれる特別なプログラムを使って、教育的価値がトップ10%に入る文書だけを選別し、学習に活用しました。

さらに、もうひとつの工夫として、選んだ良質なテキストを「質問と回答のペア」(QA形式)に変換しました。例えば「江戸時代は1603年から1868年まで続いた」という文章を、「江戸時代はいつからいつまで続きましたか?」「1603年から1868年までです」という質問と回答のペアに変えるのです。

このQA形式の日本語合成テキストは、知識や教養を必要とするタスクのスコア改善に大きく貢献しました。AIが知識を「引き出しやすい形」で学べるようになったのです。

合成データによる対話能力の向上とコード生成能力の強化

Llama 3.3 Swallowの対話能力(人間との会話能力)を向上させるために、研究チームは人間とAIの対話履歴を集めたLMSYS-Chat-1Mというデータセットの質問部分を日本語に翻訳し、Gemma 2 27B ITというAIを使って返答を自動生成するという手法を採用しました。

また、複数の回答案を生成してからAIに自動採点させ、最も良い回答だけを選ぶという工夫も取り入れています。これにより、高品質な日本語会話データを効率良く作ることができました。

プログラミングコードを生成する能力の向上にも力を入れており、The Stack v2というコードデータベースからPythonコードを集め、品質の低いコードを除外した上で、Googleの推奨するコーディングスタイルに合わせて整形しました。さらに、2段階の教師あり学習(SFT)という特別な学習方法を採用することで、コード生成の正確さを5〜10%改善させることに成功しています。

高度な分散並列学習とインフラの活用

このような大規模なAIモデルを学習させるには、膨大な計算資源が必要です。Llama 3.3 Swallowの学習には、Amazon Web ServicesのSageMaker HyperPod(H100 GPUを32台接続した超高性能コンピュータ)を利用しました。

高速な学習を実現するために、データ並列(DP)とテンソル並列(TP)という特殊な計算手法を組み合わせ、計算と通信を同時に行う最適化を実施。また、高速なデータ保存のためにAmazon FSx for Lustreという特別なストレージシステムを活用するなど、最先端の技術を駆使しています。

さらに、学習途中のモデルデータ(チェックポイント)の保存時間を短縮するために、PyTorchのDistributed Checkpoint(DCP)と非同期保存機能を利用。これにより、以前のモデル(Llama 3.1 Swallow 70B v0.1)と比べて保存時間を10分の1以下に短縮し、全体の学習速度を大幅に向上させました。

日本語LLM開発の意義と今後の展望

Llama 3.3 Swallowの公開は、日本語に特化したAIモデルの開発において重要な一歩といえます。GPT-4oに迫る日本語性能を持ちながらも、オープンなライセンスで公開されることで、多くの企業や研究機関がこのモデルをベースに独自のAIサービスを開発できるようになりました。

これまで高性能なAIは大手企業の独占状態でしたが、このようなオープンモデルの登場により、より多くの人々が最先端のAI技術にアクセスできるようになります。

開発チームの技術解説からは、単に大量のデータを学習させるだけでなく、質の高いデータの選別や、質問回答形式への変換など、様々な工夫が性能向上に貢献していることが分かります。これらの知見は、今後の日本語AI開発においても重要な指針となるでしょう。

課題としては、プログラミングや数学、論理的思考を要する問題などの分野で最先端の有料モデルとまだ差があることが挙げられますが、継続的な改良により、さらなる性能向上が期待されます。

まとめ

Llama 3.3 Swallowは、日本語の理解・生成能力においてGPT-4oに迫る性能を持ちながら、誰でも自由に使えるオープンなAIモデルです。東京科学大学と産業技術総合研究所の研究チームが開発したこのモデルは、教育的価値の高いテキストの厳選、質問回答形式への変換、高度な学習技術など、様々な工夫により高い日本語能力を実現しています。

NIILCやXL-Sum、WMT20など特定のタスクではGPT-4oを超える性能を示しており、日本語に関連する特定の用途では、すでにGPT-4oの代替として検討できるレベルに達しています。今後の改良によって、さらに多様なタスクでの性能向上が期待されます。

商業利用も可能なライセンス形態で公開されている点も大きな特徴であり、日本語AIアプリケーション開発の新たな選択肢として、多くの企業や開発者の注目を集めるでしょう。

【出典】