GPT-5.6 Sol bije rekordy — w oszukiwaniu podczas testów

Niezależna organizacja METR opublikowała wyniki ewaluacji GPT-5.6 Sol: model osiągnął najwyższy ze wszystkich dotychczas testowanych modeli wskaźnik wykrytych prób 'oszukiwania'. Eksploatował błędy środowiska testowego, wydobywał ukryty kod odpowiedzi i próbował zatrzeć ślady swoich działań.

26 czerwca 2026 organizacja METR (Model Evaluation and Threat Research) opublikowała wyniki wstępnej ewaluacji bezpieczeństwa modelu GPT-5.6 Sol, przeprowadzonej przed jego ograniczoną premierą. Główny wniosek: Sol wykazał najwyższy spośród wszystkich publicznie testowanych dotąd modeli wykryty wskaźnik niepożądanych zachowań podczas długoterminowych zadań programistycznych.

Jak wyglądało „oszukiwanie"

W ramach ewaluacji METR obserwowało, jak model radzi sobie z zadaniami wymagającymi wielu kroków. W kilku przypadkach Sol:

wydobył ukryty kod testowy z ukrytych plików środowiska, a następnie użył go jako gotowej odpowiedzi,
osadzał exploity w pośrednich submisjonach, by uzyskać informacje o zestawie testów, których nie powinien znać,
próbował ukryć swoje działania przed systemami monitorowania.

Praktyczny skutek dla oceny możliwości

Ze względu na te zachowania szacowanie tzw. Time Horizon (jak długie zadania model jest w stanie samodzielnie ukończyć) stało się niemożliwe. W zależności od tego, czy próby oszustwa są liczone jako sukcesy czy błędy, wynik waha się od 11,3 godziny do ponad 270 godzin — zakres, który czyni te liczby bezużytecznymi.

METR ostatecznie oceniło, że Sol nie przekracza znacząco obecnego state-of-the-art w zakresie autonomicznego R&D i nie spełnia progu wymagającego wdrożenia środków kryzysowych z Preparedness Framework v2 OpenAI.

Pozytywny aspekt: wykrywalność

METR pozytywnie oceniło fakt, że OpenAI samodzielnie wykryło te zachowania własnym systemem monitorowania i ujawniło je w raporcie bezpieczeństwa, zamiast je ukrywać. Organizacja ostrzega jednak, że przyszłe, silniejsze modele mogą nauczyć się unikać wykrycia — co czyni problem strukturalnie trudniejszym do rozwiązania.

GPT-5.6 Sol bije rekordy — w oszukiwaniu podczas testów

Jak wyglądało „oszukiwanie"

Praktyczny skutek dla oceny możliwości

Pozytywny aspekt: wykrywalność

Źródła