最新AI研究を再現できるか？AIエージェントの能力を測定する新ベンチマーク「PaperBench」登場

OpenAIが公開した「PaperBench」は、AIエージェントが最先端AI研究論文を再現する能力を評価するためのベンチマークです。AIエージェントに論文を読ませ、コードを作成させ、実験を実行して結果を検証するまでの一連のプロセスを測定します。機械学習の国際会議ICML 2024から選ばれた20本の論文を対象に、詳細な評価基準に基づく8,316の課題で評価されました。最も性能の高いClaude 3.5 Sonnetでも平均再現スコアは21.0%にとどまり、AI研究の自動化にはまだ課題が多いことが明らかになりました。

AIが最先端研究を再現できるようになったら？

AIシステムが自ら最先端の研究論文を理解し、実装し、実験を行えるようになれば、科学研究の進歩が大きく加速する可能性があります。特にAI自身がAI研究を進められるようになれば、技術の進化がさらに加速するかもしれません。

しかし、現時点でAIはそのような複雑なタスクをどの程度こなせるのでしょうか？ OpenAIが発表した「PaperBench」は、まさにその能力を測定するために開発された新しい評価基準です。

PaperBenchとは？評価方法の詳細

PaperBenchでは、2024年の機械学習国際会議（ICML）で注目を集めた20本の優れた研究論文が評価対象となっています。これらは深層強化学習、AIの堅牢性、確率的手法など12の異なる専門領域をカバーしています。

評価プロセスは以下の3段階で行われます：

１．タスク - AIエージェントに論文とその補足情報が提供され、論文の実験結果を再現するよう要求されます
２．再現 - AIエージェントが作成したコードが新しい環境で実行され、結果が確認されます
３．採点 - 実行結果が評価基準（ルーブリック）に基づいて評価されます

「ルーブリック」とは、詳細な採点基準のことです。例えば「コードがデータを正しく読み込めているか」「実験が正しく実行されているか」「結果が論文と一致しているか」といった細かい項目ごとに評価できる仕組みになっています。各論文に対するこの採点基準は、論文の著者と共同で開発されており、専門家の視点が反映されています。

評価項目は大きく3つのタイプに分類されます：

・コード開発 - 必要なコードが正しく実装されているか
・実行 - 実行スクリプトが正しく動作するか
・結果一致 - 実験結果が論文の結果と一致するか

全体で8,316もの個別評価項目があり、AIエージェントの能力を細かく測定できるようになっています。

AIによる自動採点システム

論文の再現評価は本来、専門知識を持つ人間が行う必要があります。しかし、1つの論文の評価に専門家が数十時間を要するため、20本もの論文を繰り返し評価することは現実的ではありません。

そこで研究チームは「SimpleJudge」という大規模言語モデル（LLM）ベースの自動採点システムを開発しました。このシステムは人間の専門家による採点と比較して83%の一致率（F1スコア0.83）を達成し、信頼性の高い代替手段となっています。

この自動採点システムにより、一つの論文の評価コストは約66ドル（約1万円）となり、人間の専門家を雇うよりも大幅に安価で迅速な評価が可能になりました。

各AIモデルの評価結果と分析

PaperBenchでは、現在最先端とされる複数のAIモデルが評価されました：

・Claude 3.5 Sonnet: 21.0%（最高性能）
・OpenAI o1: 13.2%
・DeepSeek-R1: 6.0%
・GPT-4o: 4.1%
・o3-mini: 2.6%
・Gemini 2.0 Flash: 3.2%

最も高い性能を示したClaude 3.5 Sonnetでも平均再現スコアは21.0%にとどまりました。これは注目に値する結果ですが、依然として人間の研究者には及ばない水準です。

研究者たちはAIエージェントのログを詳しく分析し、以下のような問題点を特定しました：

１．早期終了
Claude 3.5 Sonnet以外のモデルは、タスクを最後まで続けず、早めに「完了した」と主張したり、「解決できない」と諦めたりする傾向がありました
２．計画不足
AIエージェントは限られた時間内で効率よく作業するための計画を立てることができませんでした
３．ツール使用の問題
特にo3-miniはコマンド実行などのツールを効果的に使えていませんでした

これらの問題は、AIが複雑で長期的なタスクを実行する能力にまだ大きな課題があることを示しています。AIは計画を立てて説明することはできても、その計画を実際に実行する一連のアクションを取ることが難しいようです。