Meta、最も高性能なAI「Muse Spark」を発表―しかしGemini 3.1 Proが依然としてトップを維持

要約

Metaの新しいMuse Sparkは、AIエージェントベースの推論を備えたクローズド型のネイティブマルチモーダルAIへの転換を示している。
Metaは健康と検索分野で強力なベンチマークの向上を報告しているが、コア推論とコーディングではGeminiに遅れをとっている。
9ヶ月でより少ない計算リソースで構築されたこのモデルは、新しい効率重視のAI戦略を示している。

Metaは水曜日にMuse Sparkを発表した。これは、MetaがScale AIを140億ドルで買収した後、Chief AI OfficerのAlexandr Wang氏のもとで9ヶ月前に結成されたMeta Superintelligence Labsによって構築された最初のモデルである。現在meta.aiとMeta AIアプリで利用可能で、今後数週間でFacebook、Instagram、WhatsAppへの展開が予定されている。

これは単なるチャットボットのアップグレードやLlamaの新バージョンではない。Muse Sparkはネイティブマルチモーダルであり、既存のテキストモデルにビジョンを追加するのではなく、画像、テキスト、音声を基礎から処理する。視覚的な思考連鎖、ツール使用サポート、そしてMetaが「Contemplating mode」と呼ぶもの、つまり複数のAIエージェントを並行実行してより困難な問題に取り組む仕組みを備えている。これは、GoogleのGemini Deep ThinkとOpenAIのGPT Proの拡張思考モードに対するMetaの回答である。

「Muse Sparkは、私たちのスケーリングラダーにおける最初のステップであり、AI取り組みの根本的な見直しの最初の成果です」とMetaは公式発表で述べた。「さらなるスケーリングをサポートするため、研究とモデルトレーニングからHyperionデータセンターを含むインフラストラクチャまで、スタック全体にわたって戦略的投資を行っています。」

同社は1,000人以上の医師と協力して、Muse Sparkの医療推論のためのトレーニングデータをキュレーションした。HealthBench Hard(オープンエンドの健康クエリベンチマーク)での結果は印象的である。Muse Sparkは42.8を記録し、GPT 5.4の40.1、Gemini 3.1 Proのわずか20.6と比較して優れている。これは僅差ではない。

AIエージェント検索(DeepSearchQA)でも、Muse Sparkは74.8でリードし、Gemini(69.7)とGPT 5.4(73.6)を上回っている。CharXiv Reasoning(科学論文からの図表理解)では86.4を記録し、比較対象のモデル中で最高得点となった。

AIのジェイルブレイクに興味がある人向けに、このモデルは数分以内に解析された:

しかし、良いことと素晴らしいことは同じではない。全体的なベンチマークの状況では、Gemini 3.1 Proがほとんどのカテゴリーで依然として先行している。その差はARC AGI 2(抽象的推論パズルベンチマーク)で最も顕著である。Geminiが76.5を記録したのに対し、Muse Sparkは42.5だった。

コーディング(LiveCodeBench Pro)では、Geminiの82.9がMetaの80.0を上回っている。MMMU Pro(マルチモーダル理解)では、Geminiが83.9を記録したのに対し、Muse Sparkは80.4だった。Metaの公式ブログでも、長期的なAIエージェントシステムとコーディングワークフローにおける現在のパフォーマンスギャップを認めている。

今回の発表には、注目すべき戦略的シフトも含まれている。Muse Sparkはクローズドモデルであり、そのアーキテクチャとウェイトは公開されない。これは、オープンAIコミュニティでMetaの評判を築いたLlamaからの大きな転換である。今年初めのLlama 4の期待外れの反応を受けて、Metaは次の章を異なる方法で書く必要があると判断したようだ。

同社はMuseの将来のバージョンをオープンソース化することを期待していると述べているが、現時点ではコードはMeta内部に留まっている。この発表を受けて、テクノロジー大手の株価は水曜日に約9%上昇し、取引日を6.5%上昇の612.42ドルで終えた。

「Contemplating mode」は、並列AIエージェントオーケストレーションを使用してモデルの上限を引き上げる。この構成では、Muse SparkはHumanity's Last Examで58%、FrontierScience Researchで38%を記録し、GeminiとGPTの標準リリースではなく、最も高性能なバージョンと競争できる領域に達している。

Metaはまた、製品を比較して購入に直接リンクするショッピングアシスタントを展開し、今後数週間でMuse SparkをFacebook、Instagram、WhatsAppに導入する計画である。これはLlama 3以降実装されてきた同じ戦略に従い、35億人以上のユーザーの前に展開される。プライベートAPIプレビューは選ばれた開発者に公開されている。

このモデルは9ヶ月で構築され、内部コードネームはAvocadoで、Metaは新しいプレトレーニングスタックが10分の1以上少ない計算リソースでLlama 4 Maverickと同じ能力レベルに到達できると主張している。

Muse Sparkは社内でMuseファミリーの「小型で高速な」最初のステップと説明されている。より高性能なバージョンがすでに開発中である。