サンフランシスコを拠点とするAI企業Sentient Labsは27日、エンタープライズ向けAIエージェントの推論性能を検証する新たな評価環境「Arena」を立ち上げたと発表した。
初期フェーズには、運用資産1.5兆ドル超のFranklin Templetonのほか、ピーター・ティール氏率いるFounders FundやPanteraといった有力VC、AIモデル統合プラットフォームのOpenRouterなどが参画する。AIエージェントの導入を見据えた機関投資家やインフラ企業の関心の高まりを示す動きといえそうだ。
近年、暗号資産(仮想通貨)市場ではAIエージェントによる自律的な取引が急拡大しているが、複雑な金融判断における信頼性の検証が課題となっている。Arenaは、数千人規模のAI開発者が参加する本番環境レベルのテスト基盤。不完全な情報や曖昧な指示、矛盾する情報源など実際のエンタープライズ環境に近い条件下でAIエージェントの性能を検証するという。
リリースによると、単に「正解したかどうか」を判定するのではなく、推論プロセス全体(reasoning trace)を記録することで、エンジニアが失敗要因を分析し、改善を検証できる設計となっている。特定ベンダーに依存しない中立的な評価環境として、本番導入前の信頼性検証を支援する狙いだ。
文書推論から検証、サイロ化という課題
まずは、企業利用における基盤的課題とされる「ドキュメント推論」に焦点を当てる。金融分析や投資メモ作成など、複雑で非構造化されたデータを横断的に読み解き、計算や論理展開を行う能力が問われる領域だ。
Sentientの共同創業者ヒマンシュ・チャギ(Himanshu Tyagi)氏は、「AIエージェントはもはや企業内の実験ではない」と指摘。顧客や資金、業務成果に直接影響する領域に組み込まれているとし、重要なのはデモの印象ではなく「本番環境で安定して推論できるかどうかだ」とコメントしている。
同社によると、企業の85%が「エージェント企業(agentic enterprise)」への移行を考え、約4分の3が自律型エージェントの導入を計画しているという。一方で、成熟したガバナンス体制を整備している企業は4分の1未満にとどまり、実証実験から本番運用への移行に課題を抱えるケースが多いという。
企業は平均して十数のエージェントを運用しているが、多くがサイロ化しており、十分な統合やオーケストレーションがなければ、エージェントの追加がかえって複雑性を高める可能性があると指摘している。
Arenaは3月からサンフランシスコで対面イベントを開始し、世界中のAI開発者に初期コホートへの参加を呼びかけるとしている。
|文:橋本祐樹
|画像:Sentientのホームページよりキャプチャ