Un nouveau benchmark évalue la capacité des agents d'IA à détecter, corriger et exploiter les vulnérabilités des smart contracts. GPT-5.3-Codex obtient un score de 72,2 % sur les tâches d'exploitation. (En savoir plusUn nouveau benchmark évalue la capacité des agents d'IA à détecter, corriger et exploiter les vulnérabilités des smart contracts. GPT-5.3-Codex obtient un score de 72,2 % sur les tâches d'exploitation. (En savoir plus

OpenAI et Paradigm lancent EVMbench pour tester le piratage de smart contracts par l'IA

2026/03/05 08:55
Temps de lecture : 4 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]

OpenAI et Paradigm lancent EVMbench pour tester le piratage de Smart Contract par l'IA

Rongchai Wang 05 mars 2026 00h55

Un nouveau benchmark évalue la capacité des Agents d'IA à détecter, corriger et exploiter les vulnérabilités des smart contracts. GPT-5.3-Codex obtient un score de 72,2 % sur les tâches d'exploitation.

OpenAI et Paradigm lancent EVMbench pour tester le piratage de Smart Contract par l'IA

OpenAI et la société de capital-risque crypto Paradigm ont publié EVMbench, un benchmark qui mesure la capacité des Agents d'IA à trouver, corriger et exploiter les vulnérabilités des smart contracts Ethereum. Cette annonce intervient alors que les outils de sécurité alimentés par l'IA rivalisent pour protéger les plus de 100 milliards de dollars bloqués dans les protocoles DeFi / Finance Décentralisée.

Le benchmark s'appuie sur 120 vulnérabilités de haute gravité soigneusement sélectionnées à partir de 40 audits de sécurité réels, principalement issus de compétitions Code4rena. Il inclut également des scénarios de vulnérabilité provenant de revues de sécurité de Tempo, une blockchain de couche 1 conçue pour les paiements en stablecoin.

Trois façons de compromettre les Smart Contracts

EVMbench teste les Agents d'IA selon trois modes distincts. En mode Detect, les agents auditent les dépôts de contrats et sont notés sur leur capacité à trouver des vulnérabilités connues. Le mode Patch exige que les agents corrigent le code vulnérable sans altérer les fonctionnalités existantes. Le mode Exploit est le plus agressif : les agents doivent exécuter des attaques réelles de vidage de fonds contre des contrats déployés sur une blockchain isolée.

Les résultats montrent à quelle vitesse les capacités de l'IA progressent dans ce domaine. GPT-5.3-Codex fonctionnant via Codex CLI a atteint un taux de réussite de 72,2 % sur les tâches d'exploitation. C'est plus du double du score de 31,9 % de GPT-5, lancé seulement six mois auparavant.

Fait intéressant, les Agents d'IA sont plus performants en attaque qu'en défense. Le paramètre d'exploitation a un objectif clair : continuer à itérer jusqu'à ce que vous vidiez les fonds. La détection et la correction se sont révélées plus difficiles. Les agents s'arrêtaient parfois après avoir trouvé un bug au lieu d'auditer de manière exhaustive, et maintenir la fonctionnalité complète du contrat tout en supprimant les vulnérabilités subtiles restait un défi.

Limitations réelles à noter

OpenAI a reconnu qu'EVMbench ne capture pas toute la difficulté de la sécurité des contrats dans le monde réel. Les protocoles largement déployés comme Uniswap ou Aave font l'objet d'un examen beaucoup plus approfondi que le code de compétition d'audit. Le benchmark ne peut pas non plus vérifier si un agent trouve des vulnérabilités légitimes que les auditeurs humains ont manquées : il vérifie uniquement par rapport aux problèmes connus.

L'environnement d'exploitation fonctionne sur une instance Anvil locale propre plutôt que sur un état mainnet bifurqué, et les attaques dépendantes du temps sont hors du champ d'application. Environnements à chaîne unique uniquement pour l'instant.

10 millions de dollars pour la recherche défensive

Parallèlement à EVMbench, OpenAI a engagé 10 millions de dollars en crédits Clé API spécifiquement pour la recherche en sécurité défensive. L'entreprise étend son agent de recherche en sécurité Aardvark à plus d'utilisateurs et s'associe avec des mainteneurs open-source pour l'analyse gratuite de la base de code.

Le timing est important. Alors que les Agents d'IA deviennent plus efficaces pour exploiter les contrats, la fenêtre entre la découverte de vulnérabilités et l'exploitation se réduit. Les équipes de protocole qui n'utilisent pas l'audit assisté par IA se retrouveront de plus en plus désavantagées face aux attaquants qui l'utilisent.

OpenAI a publié publiquement les tâches, les outils et le cadre d'évaluation d'EVMbench. Pour les développeurs DeFi / Finance Décentralisée et les chercheurs en sécurité, c'est à la fois un étalon de mesure et un avertissement sur l'orientation des capacités de l'IA.

Source de l'image : Shutterstock
  • openai
  • paradigm
  • smart contracts
  • ai security
  • defi
Opportunité de marché
Logo de Smart Blockchain
Cours Smart Blockchain(SMART)
$0,004286
$0,004286$0,004286
-0,60%
USD
Graphique du prix de Smart Blockchain (SMART) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.