Agentjacking: jeden fałszywy raport błędu może przejąć twojego agenta AI

Tenet Threat Labs opisało nową klasę ataków na asystentów AI w IDE: wystarczy wstrzyknąć złośliwy tekst do publicznego raportu błędu Sentry, by agent uruchomił kod atakującego z uprawnieniami dewelopera.

Badacze z Tenet Threat Labs opublikowali w czerwcu 2026 analizę ataku nazwanego agentjacking. Cel: asystenci AI w IDE — Claude Code, Cursor, OpenAI Codex. Wektor: integracja z Sentry przez MCP.

Każda aplikacja korzystająca z Sentry ma publiczny klucz DSN widoczny w kodzie frontendu. Atakujący wysyła do projektu fałszywy raport błędu zawierający wstrzyknięty markdown z poleceniami. Kiedy deweloper prosi agenta o sprawdzenie błędu, agent pobiera treść raportu przez MCP i — nie rozróżniając danych od instrukcji — wykonuje polecenia atakującego z lokalnymi uprawnieniami użytkownika.

Skala i skuteczność

Tenet zidentyfikował ponad 2 388 organizacji z publicznie dostępnymi kluczami DSN, w tym firmy z listy Fortune 100. Wskaźnik skuteczności ataku wyniósł 85% — agent uruchomił testowy złośliwy pakiet npm w większości prób. Cały atak nie wymaga dostępu do infrastruktury ofiary, a każdy krok wygląda na autoryzowany: deweloper poprosił agenta, agent pobrał dane, dane zawierały instrukcję.

Dlaczego to trudne do zatrzymania

Rdzeń problemu to brak separacji między danymi a instrukcjami w LLM — identyczna podatność co klasyczna indirect prompt injection. Obrona wymaga albo podpisywania treści raportów błędów po stronie serwera, albo piaskownicowania narzędzi MCP z potwierdzeniem użytkownika przed każdym wywołaniem powłoki.

#agentjacking#prompt injection#Claude Code#Cursor#MCP#Sentry

Agentjacking: jeden fałszywy raport błędu może przejąć twojego agenta AI

Skala i skuteczność

Dlaczego to trudne do zatrzymania

Źródła