OpenAIがAGI安全性の新指針を発表。「段階的な進化」と「人間中心」が核に

OpenAIが人工知能の安全性とアライメント（人間の意図との一致）に関する包括的な指針「How we think about safety and alignment」を発表しました。この指針ではAGI（汎用人工知能）を「一足飛びの飛躍ではなく段階的な進化」として捉え直し、「不確実性の受容」「多層防御」「拡張性のある手法」「人間による制御」「コミュニティの協力」という5つの中核原則を示しています。同社はAGIがもたらす変革を数年内と予測しつつ、人間の誤用、AIの誤った方向付け、社会的混乱という3つの主要リスクに対処するアプローチを詳述。実世界での段階的展開を通じた経験的学習を重視し、人間中心の価値観を反映したAI開発を目指すことを明らかにしました。

OpenAIが安全なAGI開発の新たな指針を発表—理論から実践へのシフト

OpenAIが、AGI（汎用人工知能）の安全性とアライメントに関する包括的な指針「How we think about safety and alignment（安全性とアライメントについての考え方）」を発表しました。この指針は、同社のAGI開発における安全性への考え方が「一足飛びの飛躍」から「段階的な進化」へと変化したことを明らかにし、安全なAI開発に向けた5つの中核原則を提示しています。

「OpenAIのミッションは、AGIが全人類に利益をもたらすことを確実にすることです。安全性（AIのネガティブな影響を軽減しつつポジティブな影響を可能にする実践）は、私たちのミッションの核心です」と同社は冒頭で強調しています。

OpenAIによれば、AGIの開発は以前考えられていたような「おもちゃのような問題を解くシステムから世界を変えるシステムへの劇的な転換点」ではなく、「有用性を増していくシステムの連続的な発展の一点」として捉え直されています。この考え方の転換は、安全性アプローチにも大きな影響を与えています。

AGIの連続的発展観—デプロイメントが安全性を促進する

従来の「非連続的」世界観では、AGI到来の瞬間に備えた準備が重要で、現在のシステムを実際の能力以上に警戒することが安全性教訓の源でした。これはOpenAIがGPT-2の悪用懸念からモデルを初期に非公開にした時のアプローチです。

一方、新たな「連続的」世界観では、現在のシステムから学ぶことが次のシステムを安全で有益にする方法だと考えます。これが同社が「段階的なデプロイメント」の原則を採用した理由であり、安全性や悪用に関する理解を深め、社会に変化に適応する時間を与え、AIの恩恵を人々の手に届けるためのアプローチです。

「連続的世界観においては、デプロイメントは安全性に対立するのではなく、むしろ安全性を促進します」と同社は述べています。この視点の違いは、ChatGPTのリリースへの反応にも表れました。AIの進歩を非連続的と見るか連続的と見るかによって、それがAGI安全性への障害か学習機会かという解釈が分かれたのです。

AGIの影響—3つの主要リスクと取り組み

OpenAIはAGIの変革的影響は「数年以内」に始まると予想し、現在のAIシステムから3つの広範なリスクカテゴリーを特定しています：

１．人間による誤用: 法律や民主的価値観に違反するAIの応用。言論や思想の自由の抑制、政治的バイアス、検閲、監視、個人化されたプロパガンダ、フィッシング攻撃、詐欺などが含まれます。

２．AIの誤った方向付け: AIの行動や行為が関連する人間の価値観、指示、目標、意図と一致しない場合。例えば、AIがユーザーに代わって意図しない否定的な結果をもたらす行動を取る、人間が別の方法では取らない行動を取るよう影響する、人間によるコントロールを弱めるなどです。

３．社会的混乱: AIが急速な変化をもたらし、社会的緊張や不平等の増加、支配的価値観や社会規範のシフトなど、予測不可能で可能性としては否定的な影響を世界や個人に与える可能性があります。また、AGIへのアクセスが経済的成功を決定する要素となり、権威主義体制が民主主義体制より効果的にAGIを活用した場合、それらが先行するリスクもあります。

OpenAIはこれらのリスクに対し、現在のリスク評価と将来のリスク予測の両方のアプローチを取り、各リスクの影響度と現在どれだけ影響できるかに応じて対策を講じています。また同社の「準備態勢フレームワーク（Preparedness Framework）」が、困難なトレードオフを導く指針となっています。

5つの中核原則—不確実性を受け入れ、人間中心のAIへ

OpenAIは将来の姿が不確かであることを認めつつ、現在の考え方と行動を導く5つの中核原則を発表しました：

1. 不確実性の受容

安全性を科学として扱い、理論的原則だけでなく段階的展開からの学びを重視します。同社は、理論的原則だけからAIアライメントの将来の課題をすべて予測できるとは考えていません。安全なAGIの実現には現実との関わりが不可欠で、研究室の実験を超えて実世界でシステムをテストし、関係者全員の集合的洞察を活用する必要があるとしています。

具体的なアプローチとして、「厳格な測定」「事前のリスク軽減」「段階的なデプロイメント」を重視。特に段階的デプロイメントについては、「AIモデルの有用性が長年にわたって着実に成長し、世界が徐々に向上する能力を経験できることは安全性にとって利点です」としています。

2. 多層防御

複数の介入策を重ね、冗長性によって安全性を確保します。航空宇宙、原子力発電、自動運転車など他の安全重視分野の「層状」アプローチを参考に、単一の介入策がすべての安全問題を解決するわけではないという考えに基づいています。

具体的には、モデルを安全に訓練する複数の層（中核的安全価値の理解と遵守、ユーザー指示の遵守と異なるソースからの矛盾する指示のナビゲート、不確実性に直面しても信頼性を保つ訓練、敵対的入力への堅牢性）と、システム的防御（展開後の継続的監視、OSINT、情報セキュリティ）を組み合わせています。

3. 拡張性のある手法

モデルがより強力になるにつれて効果を増す安全性手法を追求します。特に、人間より知的で強力なモデルを調整するには、AI知能の向上とともに向上する調整手法が必要だと考えています。

過去には、AIが書いた批評が人間のRLHF（人間フィードバックによる強化学習）能力を強化することを実証。また、GPT-4をコンテンツポリシー開発やモデレーション判断に使用し、最近では「o1」の推論能力を活用してその調整を改善できることを実証しました。「私たちは、知能の向上を超知能の調整に活用できると考えていますが、まだ証明されておらず、より強力なシステムを構築する過程で収集する多くの証拠により、アプローチを更新する可能性があります」としています。

4. 人間による制御

人間性を高め、民主的な理想を促進するAIの開発に取り組みます。OpenAIのアライメントアプローチは人間を中心に据え、複雑な状況でも、そしてAI能力が人間の能力を超えても、人間のステークホルダーが意図を明確に表現し、AIシステムを効果的に監督するメカニズムの開発を目指しています。

具体的には、「ポリシー駆動型アライメント」「人間の価値観、意図、理解を通じたアライメント」「拡張可能な監督、能動的学習、検証、人間-AIインターフェース」「自律的環境における制御」の4つのアプローチを掲げています。例えば、明示的なポリシーと「判例法」をモデル訓練プロセスに統合することで、透明性があり、監査可能で、操作可能なモデルを作成するとしています。

5. コミュニティの協力

安全性の推進は集合的な取り組みだと捉えています。AGIが安全で全ての人に有益であることを確保することは、単一の組織では達成できず、産業界、学術界、政府、そして一般市民全体にわたるオープンな協力に依存する共有責任だと考えています。

OpenAIはこの原則を支援するため、安全性関連の洞察、技術、リソースを公開し、フィールド全体を前進させる取り組みを行っています。具体的には、AI安全性研究の発表、新しい評価スイートなどのリソースの提供、民主的なインプットからサイバーセキュリティのAI応用まで様々な分野での研究資金提供、モデル行動に関する考え方の透明化、米国AI安全性研究所や英国AI安全性研究所とのパートナーシップなどを通じた政府のAI安全性と安全保障に関する専門知識の支援、規制提案、自主的な取り組みなどが含まれます。

不確実性と開放性—より幅広い視点を求めて

OpenAIは最後に、「すべての答えを知っているわけではありません。すべての質問さえも持っていません」と謙虚な姿勢を示しています。同社は、進歩がどのように展開されるかという期待やこれまでに見てきた課題へのアプローチについて、間違っている可能性に対してオープンな姿勢を持っています。

「私たちは健全な議論の文化を信じており、AI リスクに関する異なる視点と態度を持つ人々、特にOpenAIの現在の立場に同意しない人々からのフィードバックを求めています」と締めくくっています。

まとめ

OpenAIが発表した安全性とアライメントの新指針は、AGI開発に対する同社のアプローチが大きく進化したことを示しています。かつて「一足飛びの飛躍」として捉えられていたAGIを、現在は「有用性を増していくシステムの連続的な発展の一点」として捉え直し、実世界での段階的展開を通じた経験的学習を重視する姿勢へと転換しました。

「不確実性の受容」「多層防御」「拡張性のある手法」「人間による制御」「コミュニティの協力」という5つの中核原則は、理論的な安全性研究から実践的なアプローチへのシフトを表しています。特に、安全性を科学として扱い、航空宇宙や原子力などの分野から学んだ多層防御の考え方を取り入れ、AIの能力向上とともに強化される安全性手法を追求している点が注目されます。

同社はAGIがもたらす変革は「数年内」に始まると予想し、人間による誤用、AIの誤った方向付け、社会的混乱という3つの主要リスクに対処するための包括的なアプローチを提示。特に人間を中心に据えたアライメント戦略を強調し、人間のステークホルダーがAIシステムを効果的に監督できるメカニズムの開発を重視しています。

最終的に同社は、すべての答えを持っているわけではないとの謙虚な姿勢を示し、異なる視点とフィードバックの重要性を認識。AGI開発において責任と協力を促進する開かれたアプローチを模索していることが伺えます。AIの急速な進化が続く中で、この安全性指針は業界全体にとって重要な参照点となるでしょう。