Amazonが研究プレビュー版として「Amazon Nova Act」をリリース。ウェブブラウザ内でタスクを実行するAIモデルで、開発者はこれを活用して複雑なワークフローを信頼性の高い単位操作に分解し組み合わせることが可能。ScreenSpotやGroundUI Webなどのベンチマークで最高クラスのパフォーマンスを実現し、日程選択やドロップダウン、ポップアップなど他のモデルが苦手とする操作での信頼性に焦点を当てています。
Amazonが新たなAIエージェント技術で実用性に焦点
Amazonが2025年4月1日、ウェブブラウザ内でタスクを実行する新しいAIモデル「Amazon Nova Act」を発表しました。Nova ActはAmazon AGIが開発し、研究プレビュー版のSDKとして公開されています。このSDKを使えば、開発者はウェブブラウザ内でタスクを自動的に完了するエージェントを簡単に構築できます。
これまでの大規模言語モデル(LLM)ベースの「エージェント」は、主に自然言語でユーザーに応答したり、検索拡張生成(RAG)を通じて知識ベースを活用したりするシステムを指していました。しかしAmazonは一歩先を行き、ユーザーに代わって実際にデジタル環境や物理的環境で行動するシステムとしてエージェントを再定義しています。
Nova Actの特徴と技術的優位性
Nova Act SDKの最大の特徴は、検索やチェックアウト、画面上の質問への回答といった操作を組み合わせて、より複雑なワークフローを構築できる点です。開発者は必要に応じて詳細な指示を追加したり、APIを呼び出したり、Playwrightを使ってブラウザを直接操作したりすることも可能です。
さらに、Pythonのテスト機能やブレークポイント、並列処理のためのスレッドプールなどと組み合わせられるため、柔軟な開発環境を実現しています。これはウェブページの読み込み時間による制約を効率的に解決する方法としても有効です。
また、Amazon Nova Actは、ベンチマークテストでも優れたスコアを収めています
- ・ScreenSpot Web Text(テキスト要素操作): 0.939スコア
- ・ScreenSpot Web Icon(視覚的要素操作): 0.879スコア
- ・GroundUI Web(UI要素の理解と操作): 0.805スコア
これらのスコアは、Claude 3.7やOpenAI CUAといった競合モデルを上回る結果になっています。

実用的なユースケース
Nova Actの大きな強みは信頼性の高さです。一度設定すれば各アクションを監視する必要がなく、ヘッドレスモードでの実行やAPIとしての統合、定期的な自動実行なども簡単に設定できます。
Amazonは具体例として、「毎週火曜日に自動でサラダを注文する」機能や、ゲーム環境での活用事例を紹介しています。特に興味深いのは、ゲーム経験がまったくないにもかかわらず、Nova Actが「鳩の格闘ゲーム」で能力値を適切に割り当て、対戦相手を倒すという予想外の成功を収めた点です。これは、トレーニングされていない未知の領域でも柔軟に対応できる汎用性を示しています。

また、Nova ActはすでにAlexa+に統合されており、デモでは「オーブンが故障した」というユーザーからの問い合わせに対し、Alexaが自動的に評価の高い修理業者を検索し、Thumbtackを通じて修理依頼を送信する様子が紹介されました。既存のAPIだけでは対応できない複雑な状況でも、ウェブを自律的に操作してタスクを完了できることを示しています。
今後の展望
Amazonによれば、Nova Actは「有用なエージェントを大規模に実現するビジョン」の第一歩にすぎません。より複雑なマルチステップタスクに対応するには、幅広い環境での強化学習が必要だとAmazonは考えています。
Amazon Nova Act SDKの研究プレビュー版は公式サイト(nova.amazon.com)から入手でき、開発者コミュニティからのフィードバックを積極的に取り入れながら改良を続ける予定です。
まとめ
Amazon Nova Actは、ウェブブラウザを操作するAIモデルとして、基本操作を組み合わせた複雑なワークフローの自動化を実現します。従来のモデルが苦手とする日程選択やドロップダウン、ポップアップなどの操作でも90%以上の精度を達成し、業界最高水準のパフォーマンスを誇ります。
すでに不動産検索や家電修理予約、さらには予想外のゲーム環境でも成功を収めており、開発者にとって新たな可能性を開く強力なツールとなっています。Amazonはこれを出発点として、強化学習を活用したより高度なAIエージェントの開発を目指しています。