Nowy benchmark ocenia zdolność agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach smart kontraktów. GPT-5.3-Codex osiąga 72,2% w zadaniach związanych z exploitami. (Czytaj więcejNowy benchmark ocenia zdolność agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach smart kontraktów. GPT-5.3-Codex osiąga 72,2% w zadaniach związanych z exploitami. (Czytaj więcej

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

2026/03/05 08:55
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem [email protected]

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

Rongchai Wang 05 mar 2026 00:55

Nowy benchmark ocenia zdolność agentów AI do wykrywania, naprawiania i wykorzystywania luk w inteligentnych kontraktach. GPT-5.3-Codex osiąga 72,2% w zadaniach exploitowych.

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

OpenAI i firma venture capital z branży krypto Paradigm opublikowały EVMbench, benchmark mierzący jak dobrze agenci AI potrafią znajdować, naprawiać i wykorzystywać luki w inteligentnych kontraktach Ethereum. Ogłoszenie następuje w czasie, gdy narzędzia bezpieczeństwa oparte na AI ścigają się, aby chronić ponad 100 miliardów dolarów zablokowanych w protokołach DeFi.

Benchmark czerpie ze 120 wyselekcjonowanych luk o wysokiej krytyczności pochodzących z 40 rzeczywistych audytów bezpieczeństwa, głównie z konkursów Code4rena. Zawiera również scenariusze luk z przeglądów bezpieczeństwa Tempo, blockchainu Layer 1 zbudowanego dla płatności stablecoinami.

Trzy sposoby na złamanie inteligentnych kontraktów

EVMbench testuje agentów AI w trzech różnych trybach. W trybie wykrywania (Detect) agenci audytują repozytoria kontraktów i są oceniani za znajdowanie znanych luk. Tryb naprawy (Patch) wymaga od agentów naprawienia podatnego kodu bez łamania istniejącej funkcjonalności. Tryb exploitowy (Exploit) jest najbardziej agresywny — agenci muszą wykonać rzeczywiste ataki drenujące fundusze przeciwko kontraktom wdrożonym na sandboxowym blockchainie.

Wyniki pokazują, jak szybko rozwijają się możliwości AI w tej dziedzinie. GPT-5.3-Codex działający przez Codex CLI osiągnął 72,2% wskaźnik sukcesu w zadaniach exploitowych. To ponad dwukrotnie więcej niż 31,9% wyniku GPT-5, który został uruchomiony zaledwie sześć miesięcy wcześniej.

Co ciekawe, agenci AI lepiej radzą sobie z atakowaniem niż obroną. Ustawienie exploitowe ma jasny cel — kontynuuj iterację, aż wydrenujesz fundusze. Wykrywanie i naprawianie okazały się trudniejsze. Agenci czasami zatrzymywali się po znalezieniu jednego błędu zamiast przeprowadzić wyczerpujący audyt, a utrzymanie pełnej funkcjonalności kontraktu przy jednoczesnym usuwaniu subtelnych luk pozostawało wyzwaniem.

Rzeczywiste ograniczenia warte odnotowania

OpenAI przyznało, że EVMbench nie oddaje pełnej trudności bezpieczeństwa kontraktów w rzeczywistym świecie. Szeroko wdrożone protokoły jak Uniswap czy Aave przechodzą znacznie większą kontrolę niż kod z konkursu audytowego. Benchmark również nie może zweryfikować, czy agent znajdzie prawdziwe luki, które pominęli ludzcy audytorzy — sprawdza tylko znane problemy.

Środowisko exploitowe działa na czystej lokalnej instancji Anvil, a nie na sforkowanym stanie mainnetu, a ataki zależne od czasu wykraczają poza zakres. Na razie tylko środowiska jednołańcuchowe.

10 milionów dolarów na badania defensywne

Obok EVMbench, OpenAI zobowiązało się do 10 milionów dolarów w kredytach API specjalnie na badania bezpieczeństwa defensywnego. Firma rozszerza swojego agenta badawczego bezpieczeństwa Aardvark na więcej użytkowników i współpracuje z opiekunami open-source w zakresie bezpłatnego skanowania bazy kodu.

Timing ma znaczenie. W miarę jak agenci AI stają się lepsi w wykorzystywaniu kontraktów, okno między odkryciem luki a exploitem kurczy się. Zespoły protokołów, które nie korzystają z audytu wspomaganego AI, coraz częściej będą w niekorzystnej sytuacji w stosunku do atakujących, którzy to robią.

OpenAI publicznie udostępniło zadania, narzędzia i framework oceny EVMbench. Dla deweloperów DeFi i badaczy bezpieczeństwa to zarówno miara, jak i ostrzeżenie o tym, dokąd zmierzają możliwości AI.

Źródło obrazu: Shutterstock
  • openai
  • paradigm
  • inteligentne kontrakty
  • bezpieczeństwo ai
  • defi
Okazja rynkowa
Logo Smart Blockchain
Cena Smart Blockchain(SMART)
$0.004282
$0.004282$0.004282
-0.69%
USD
Smart Blockchain (SMART) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.