OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

Rongchai Wang 05 mar 2026 00:55

Nowy benchmark ocenia zdolność agentów AI do wykrywania, naprawiania i wykorzystywania luk w inteligentnych kontraktach. GPT-5.3-Codex osiąga 72,2% w zadaniach exploitowych.

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

OpenAI i firma venture capital z branży krypto Paradigm opublikowały EVMbench, benchmark mierzący jak dobrze agenci AI potrafią znajdować, naprawiać i wykorzystywać luki w inteligentnych kontraktach Ethereum. Ogłoszenie następuje w czasie, gdy narzędzia bezpieczeństwa oparte na AI ścigają się, aby chronić ponad 100 miliardów dolarów zablokowanych w protokołach DeFi.

Benchmark czerpie ze 120 wyselekcjonowanych luk o wysokiej krytyczności pochodzących z 40 rzeczywistych audytów bezpieczeństwa, głównie z konkursów Code4rena. Zawiera również scenariusze luk z przeglądów bezpieczeństwa Tempo, blockchainu Layer 1 zbudowanego dla płatności stablecoinami.

Trzy sposoby na złamanie inteligentnych kontraktów

EVMbench testuje agentów AI w trzech różnych trybach. W trybie wykrywania (Detect) agenci audytują repozytoria kontraktów i są oceniani za znajdowanie znanych luk. Tryb naprawy (Patch) wymaga od agentów naprawienia podatnego kodu bez łamania istniejącej funkcjonalności. Tryb exploitowy (Exploit) jest najbardziej agresywny — agenci muszą wykonać rzeczywiste ataki drenujące fundusze przeciwko kontraktom wdrożonym na sandboxowym blockchainie.

Wyniki pokazują, jak szybko rozwijają się możliwości AI w tej dziedzinie. GPT-5.3-Codex działający przez Codex CLI osiągnął 72,2% wskaźnik sukcesu w zadaniach exploitowych. To ponad dwukrotnie więcej niż 31,9% wyniku GPT-5, który został uruchomiony zaledwie sześć miesięcy wcześniej.

Co ciekawe, agenci AI lepiej radzą sobie z atakowaniem niż obroną. Ustawienie exploitowe ma jasny cel — kontynuuj iterację, aż wydrenujesz fundusze. Wykrywanie i naprawianie okazały się trudniejsze. Agenci czasami zatrzymywali się po znalezieniu jednego błędu zamiast przeprowadzić wyczerpujący audyt, a utrzymanie pełnej funkcjonalności kontraktu przy jednoczesnym usuwaniu subtelnych luk pozostawało wyzwaniem.

Rzeczywiste ograniczenia warte odnotowania

OpenAI przyznało, że EVMbench nie oddaje pełnej trudności bezpieczeństwa kontraktów w rzeczywistym świecie. Szeroko wdrożone protokoły jak Uniswap czy Aave przechodzą znacznie większą kontrolę niż kod z konkursu audytowego. Benchmark również nie może zweryfikować, czy agent znajdzie prawdziwe luki, które pominęli ludzcy audytorzy — sprawdza tylko znane problemy.

Środowisko exploitowe działa na czystej lokalnej instancji Anvil, a nie na sforkowanym stanie mainnetu, a ataki zależne od czasu wykraczają poza zakres. Na razie tylko środowiska jednołańcuchowe.

10 milionów dolarów na badania defensywne

Obok EVMbench, OpenAI zobowiązało się do 10 milionów dolarów w kredytach API specjalnie na badania bezpieczeństwa defensywnego. Firma rozszerza swojego agenta badawczego bezpieczeństwa Aardvark na więcej użytkowników i współpracuje z opiekunami open-source w zakresie bezpłatnego skanowania bazy kodu.

Timing ma znaczenie. W miarę jak agenci AI stają się lepsi w wykorzystywaniu kontraktów, okno między odkryciem luki a exploitem kurczy się. Zespoły protokołów, które nie korzystają z audytu wspomaganego AI, coraz częściej będą w niekorzystnej sytuacji w stosunku do atakujących, którzy to robią.

OpenAI publicznie udostępniło zadania, narzędzia i framework oceny EVMbench. Dla deweloperów DeFi i badaczy bezpieczeństwa to zarówno miara, jak i ostrzeżenie o tym, dokąd zmierzają możliwości AI.

Źródło obrazu: Shutterstock

openai
paradigm
inteligentne kontrakty
bezpieczeństwo ai
defi

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

OpenAI i Paradigm uruchamiają EVMbench do testowania hackowania inteligentnych kontraktów przez AI

Trzy sposoby na złamanie inteligentnych kontraktów

Rzeczywiste ograniczenia warte odnotowania

10 milionów dolarów na badania defensywne

Możesz także polubić

Kradzież Bitcoinów Queenbee Coin: Szokujące szczegóły ujawnione przez policję w Seulu

Wstrząsy na Bliskim Wschodzie i reakcje gospodarcze Afryki

Tom Lee podwaja stawkę, gdy BitMine zwiększa zasoby Ethereum do 4,47M ETH

Popularne wiadomości

Kradzież Bitcoinów Queenbee Coin: Szokujące szczegóły ujawnione przez policję w Seulu

Wstrząsy na Bliskim Wschodzie i reakcje gospodarcze Afryki

Tom Lee podwaja stawkę, gdy BitMine zwiększa zasoby Ethereum do 4,47M ETH

Atak zatruwania adresów dewastuje influencera kryptowalutowego: 24 mln USD skradzionych w wyrafinowanym oszustwie

Kenia uruchamia elektroniczny rejestr magazynów

Ceny kryptowalut