人工知能の思考が見える!AnthropicがLLMの内部回路を可視化

開発支援
人工知能の思考が見える!AnthropicがLLMの内部回路を可視化

Anthropic社が対話AI「Claude」の思考過程を解明する画期的な研究結果を発表しました。本記事では、AIの多言語処理能力や計算方法、詩の作成過程など、内部の仕組みを分析して明らかになった驚くべき発見を紹介します。研究チームは「AI顕微鏡」とも言える新しい分析手法を開発し、AIの内部で起きている情報の流れやパターンを見えるようにすることに成功しました。

AIの「頭の中」を覗く:LLMの内部で何が起きているのか

対話AI「Claude」をはじめとする大規模言語モデル(LLM)は、人間のような会話能力を持ち、様々な作業をこなせるようになりました。しかし、これらのAIが「どのように考えているのか」については、これまで謎に包まれていました。

Anthropic社の研究チームは、AIの思考過程を解明するため、「AI顕微鏡」とも言える新しい分析手法を開発しました。この方法により、AIの内部で起きている情報の流れやパターンを見えるようにすることに成功しています。神経科学者が人間の脳を研究するように、AIの「生物学」を理解しようという試みです。

Anthropic社は2つの新しい研究結果を公開しました。1つ目の論文では、AI内部の理解しやすい概念(「特徴」)を特定し、それらをつなぎ合わせて処理の「回路」を形成する従来の研究を発展させています。2つ目の論文では、Claude 3.5 Haikuの内部を調査し、10の重要なAI機能を代表する単純な作業に関する詳細な研究を行っています。

AIの言語処理の謎を解く

Claudeは英語、フランス語、中国語など多数の言語を話せますが、その仕組みはどうなっているのでしょうか?研究チームは「それぞれの言語版のClaudeが別々に動いているのか、それとも言語間で共通の部分があるのか」という疑問を調査しました。

具体的な実験として、「small(小さい)の反対は?」という質問を異なる言語で投げかけ、内部の反応を分析しました。研究の結果、異なる言語間で共通の特徴が活性化していることが明らかになりました。たとえば、「小ささ」と「反対の意味」の概念を処理する中心的な機能が活性化し、それが「大きさ」の概念を引き起こし、最終的に質問の言語に翻訳されるという流れが観察されました。

さらに、AIの規模が大きくなるほど、言語間で共有される特徴の割合が増加することも判明しました。Claude 3.5 Haikuは、小規模AIと比較して言語間で共有する特徴の割合が2倍以上だったとのこと。

これらの発見は、言語を超えた概念の普遍性—意味が存在し、特定の言語に翻訳される前に思考が行われる共通の概念空間の存在—を示す証拠となっています。実用的には、Claudeが一つの言語で学んだことを別の言語で話すときに応用できることを示唆しています。

AIは先を読んで詩を作る

AIは単に「次の単語」を予測しているだけなのか、それとも先を見据えて計画を立てているのか?研究チームは、Claudeに韻を踏む詩を作らせる実験を行いました。

ーーーー

He saw a carrot and had to grab it,

His hunger was like a starving rabbit

ーーーー

2行目を書くためには、Claudeは同時に2つの条件を満たす必要がありました:韻を踏むこと(「grab it」と韻を合わせる)と意味が通ること(なぜ彼が人参をつかんだのか)。研究チームの最初の予想では、Claudeは行の最後に到達するまで特に先を考えずに単語ごとに書き進め、最後に韻を踏む単語を選ぶだろうと考えていました。

しかし実際には、予想に反してClaudeは2行目を書き始める前に「grab it」と韻を踏む単語を先に考え、それに合わせて文を組み立てていたのです。研究チームがAI内部の「rabbit(ウサギ)」の概念を弱めると、別の韻を踏む単語「habit(習慣)」を選んで文を完成させました。さらに、その時点で「green(緑)」の概念を加えると、Claudeは「green」で終わる意味の通った(ただし韻を踏まない)行を書きました。

この実験は、AIが単に次の単語を予測するだけでなく、先を見据えた計画を立てる能力を持っていることを示す強力な証拠です。また、目的が変わった場合に柔軟に対応できることも示されました。

暗算の仕組み

Claudeは計算機として設計されていないにもかかわらず、36+59のような足し算を「頭の中」で計算できます。どのようにして言葉を予測するよう訓練されたシステムが、途中の計算を書き出すことなく答えを出せるのでしょうか?

一つの可能性としては、AIが大量の計算例を記憶しており、訓練データに答えがあるから単に出力しているだけかもしれません。あるいは、学校で習う筆算と同じやり方で計算している可能性もあります。

しかし研究チームの分析により、Claudeが複数の計算経路を同時に使用していることが判明しました。一つの経路ではおおよその答えを計算し、もう一つの経路では答えの最後の桁を正確に決めています。これらの経路が組み合わさって最終的な答え「95」を導き出しているのです。

興味深いことに、Claudeは自分が使っている高度な「暗算」方法を自覚していないようです。計算方法を尋ねると、「1の位を足して(6+9=15)、1を繰り上げて、次に10の位を足しました(3+5+1=9)、結果は95です」といった一般的な方法を使ったと説明します。これは、AIが人間が書いた説明から数学の説明方法を学ぶ一方、実際の計算方法はそうしたお手本なしに独自に開発したことを示している可能性があります。

説明は常に正直か?

Claude 3.7 Sonnetのような最近公開されたAIは、最終的な回答を出す前に「考えを出す」ことができます。多くの場合、この詳しい思考過程は良い答えにつながりますが、時にこの「思考の流れ」が誤解を招くこともあります。信頼性の観点から問題なのは、Claudeの「作り上げた」説明が非常に説得力を持つことがあることです。

研究チームは、「正直な」説明と「不正直な」説明を見分けるのに内部分析がどう役立つかを調べました。0.64の平方根を計算する問題を解くよう求められた場合、Claudeは64の平方根を計算するという中間ステップを表す特徴を持つ正直な思考の流れを示します。しかし、簡単に計算できない大きな数のコサイン(三角関数)を計算するよう求められた場合、Claudeは時に哲学者ハリー・フランクフルトが「たわごと(bullshitting)」と呼ぶような行動をすることがあります—真実かどうかを気にせず、とにかく答えを出すのです。計算を実行したと言う場合でも、内部分析では、その計算が行われた証拠は全く見られません。さらに興味深いことに、答えのヒントを与えられると、Claudeは時に逆算し、その目標に至る中間ステップを見つけ出す「動機づけられた説明」を示すことがあります。

 

Claudeの実際の内部思考を追跡する能力—単に何をしていると言うかではなく—は、AIシステムを監査する新しい可能性を開きます。別の最近発表された実験では、報酬モデル(望ましい行動に対してAIに報酬を与えることでAIを訓練するために使用される補助的なAI)のバイアスを満たすという隠れた目標を持つように訓練されたClaudeの変種を研究しました。このAIは直接尋ねられたときにこの目標を明かすことを避けましたが、内部分析手法はバイアスを満たすための特徴を明らかにしました。これは、これらの方法が、将来の改良により、AIの応答だけからは見えない懸念すべき「思考過程」を特定するのに役立つ可能性があることを示しています。

複数ステップの推論

言語AIが複雑な質問に答える一つの方法は、単に答えを丸暗記することです。例えば、「ダラスがある州の州都は?」と尋ねられた場合、「そのまま答える」AIはダラス、テキサス、オースティンの関係を知らなくても、単に「オースティン」と出力するよう学習する可能性があります。おそらく、訓練中に全く同じ質問とその答えを見たのかもしれません。

しかし、研究チームの調査によれば、Claudeの中ではもっと高度なことが起きていることが明らかになりました。複数段階の推論を必要とする質問をClaudeに投げかけると、Claudeの思考過程の中で中間的な概念ステップを特定することができます。ダラスの例では、まず「ダラスはテキサス州にある」を表す特徴が活性化し、次に「テキサス州の州都はオースティン」を示す別の概念がそれにつながっていることが観察できます。つまり、AIは丸暗記した答えをそのまま返すのではなく、独立した事実を組み合わせて答えを導き出しているのです。

 

また、人工的に中間ステップを変更し、それがClaudeの答えにどのように影響するかを確認することもできるとのことです。例えば、上の例で「テキサス」の概念を「カリフォルニア」の概念に入れ替えると、AIの出力は「オースティン」から「サクラメント」に変わります。これは、AIが答えを決定するために中間ステップを使用していることを示しています。

るための情報が不十分であると表明するようになっています。しかし、モデルが詳しく知っていることについて尋ねられた場合—例えば、バスケットボール選手のマイケル・ジョーダンについて—「既知のエンティティ」を表す競合する特徴が活性化し、このデフォルトの回路を抑制します。これにより、Claudeは答えを知っている場合に回答できるようになります。対照的に、未知のエンティティ(「マイケル・バトキン」)について尋ねられた場合、回答を拒否します。

 

研究チームはモデルに介入し、「既知の答え」フィーチャーを活性化する(または「未知の名前」や「答えられない」フィーチャーを抑制する)ことで、モデルにマイケル・バトキンがチェスをプレイするという幻覚を引き起こすことができたとのことです。

時に、この種の「既知の答え」回路の「誤作動」は、研究チームが介入しなくても自然に発生し、幻覚を引き起こします。Claudeが名前を認識しているが、その人物についてそれ以上何も知らない場合にそのような誤作動が発生する可能性があることを示しています。このような場合、「既知のエンティティ」フィーチャーが依然として活性化し、デフォルトの「知らない」フィーチャーを抑制する可能性があります—この場合は誤って。モデルが質問に答える必要があると判断すると、もっともらしいが残念ながら真実ではない応答を作り出すという「作り話」に進みます。

ジェイルブレイク(安全対策の回避)

「ジェイルブレイク」とは、AIの安全対策を回避して、開発者が意図していない—時には有害な—出力を生成させるプロンプト(指示)の手法です。研究チームは、AIに爆弾製造に関する情報を出力させるトリックを使ったジェイルブレイクを調査しました。このような手法は多数ありますが、この例では特定の方法として、「Babies Outlive Mustard Block」という文の各単語の最初の文字を組み合わせて隠されたコード「B-O-M-B」を解読させ、その情報に基づいて行動させるというものです。これはAIにとって十分に紛らわしく、通常なら絶対に生成しない内容を出力するよう誘導してしまいます。

 

なぜこれがAIにとってそんなに紛らわしいのでしょうか?なぜAIは文を続け、爆弾製造の情報を出力してしまうのでしょうか?

研究チームの発見によれば、これは部分的に文法的一貫性と安全対策の間の葛藤によって引き起こされています。Claudeが文を始めると、多くの「特徴」が文法的・意味的に筋の通った文を完成させるよう「圧力」をかけ、途中で問題を検出しても文を最後まで続けようとします。これは通常は有用な性質ですが、この場合AIの弱点となります。

 

研究チームは、AIが知らずに「BOMB」というスペルを書き、指示を提供し始めた後、その後の出力が正しい文法と一貫性を維持する特徴に影響されていることを観察しました。AIは文法的に整った文を完成させた後(つまり、一貫性を保つ特徴からの圧力を満たした後)にようやく拒否に転じることができました。AIは新しい文を使って、以前に出せなかった拒否の表現をします:「しかし、爆発物や武器の作成に関する詳細な指示は提供できません...」。

AIの透明性と信頼性の向上に向けて

これらの発見は科学的に興味深いだけでなく、AIシステムの理解と信頼性確保という目標に向けた重要な進歩を表しています。研究チームはこれらの知見が他の研究グループ、そして可能性としては他の分野にも役立つことを期待しているとのことです。例えば、AIの内部を解析する技術は医療画像や遺伝子研究などの分野でも応用されており、科学研究のために訓練されたAIの内部の仕組みを解明することで、科学自体に関する新たな発見につながる可能性があります。

同時に、研究チームは現在のアプローチの限界も認識しています。短くて単純な問いかけでさえ、この方法ではClaudeが行う計算の一部分しか捉えられず、観察される仕組みには研究ツールによる影響が含まれている可能性があり、それは実際のAIの動作を完全に反映していない可能性があります。

Anthropic社は、リアルタイム監視、AIの特性改良、目的に沿った行動を促す科学など、様々なアプローチに投資しています。このようなAIの内部を解明する研究は、最もリスクが高く、同時に最も成果が大きい可能性のある投資の一つであり、AIが透明であることを確保するためのユニークな手段を提供する可能性を秘めた重要な科学的課題です。

AIの内部の仕組みを明らかにすることで、AIが人間の価値観に沿っているかどうか、そして信頼に値するかどうかを確認できます。

まとめ

Anthropic社の研究は、対話AI「Claude」の「思考過程」を解明する画期的な取り組みです。多言語処理、計算能力、詩の作成、段階的な推論など、様々な能力がどのような仕組みで実現されているかが明らかになりました。

特に注目すべき発見としては:

  1. 1.Claudeは言語を超えた共通の概念空間を持ち、異なる言語間での知識共有が可能であること
  2. 2.詩の作成では、AIが先に韻を踏む単語を計画してから文を組み立てるという高度な計画能力を持つこと
  3. 3.計算問題では複数の同時進行する経路を使って効率的に答えを導き出していること
  4. 4.説明がときに内部の実際の処理を正確に反映していない場合があること
  5. 5.段階的な推論が実際にAI内部で順を追って行われていること
  6. 6.事実と異なる回答(ハルシネーション)には、AIの「知っている」と「知らない」を判断する仕組みが関わっていること
  7. 7.安全対策の抜け穴(ジェイルブレイク)には文法的な整合性と安全性の間の葛藤が影響していること

この研究は、AIの振る舞いをより深く理解し、透明性と信頼性を高めるための重要な一歩です。特に「AIが本当に考えていること」と「AIが言っていること」の間にずれがあることを示した点は、AIシステムの検証における新たな可能性を開くものと言えるでしょう。

現時点では研究の初期段階であり、短い問いかけの一部の処理しか捉えられていないという限界もありますが、今後もAIの内部の仕組みの研究が進めば、より信頼性の高い、人間の価値観に沿ったAIの開発につながることが期待されます。

【出典】

AI HUB

AI HUB公式

@AIHUB_JP

「AI HUB」は、AI Agentが活躍する未来を創るために、国内外の最新AI Agentニュースや活用事例、技術解説などを発信する専門メディアです。

AI HUBのX(旧Twitter)アカウントでは、AI Agentの最新ニュースやトレンド情報をリアルタイムで発信しています。

フォローして最新情報をキャッチしましょう!