Gemini 3.5 Flash: agenty sterujące przeglądarką i komputerem — bez dodatkowych narzędzi
24 czerwca 2026 r. Google udostępniło natywne funkcje 'computer use' w Gemini 3.5 Flash — model może teraz samodzielnie obsługiwać przeglądarkę, aplikacje mobilne i desktopowe. Równocześnie Google uruchomiło Managed Agents: izolowane środowiska chmurowe do uruchamiania autonomicznych agentów.
Google 24 czerwca 2026 r. rozszerzyło Gemini 3.5 Flash o natywne możliwości computer use: model widzi ekran, rozumuje nad jego treścią i wykonuje działania w przeglądarce, aplikacjach mobilnych oraz aplikacjach desktopowych. Na benchmarku OSWorld-Verified model osiąga 78,4% — to wynik porównywalny z liderami tej klasy.
Co konkretnie potrafi agent
Model realizuje wieloetapowe, długotrwałe zadania: automatyczne testowanie aplikacji webowych, nawigacja po interfejsach enterprise, zarządzanie formularzami, ekstrakcja danych ze stron i wykonanie sekwencji kliknięć. Wbudowana obsługa function calling i integracja z Google Search i Maps sprawia, że agent może łączyć dane z internetu z bezpośrednimi akcjami w UI.
Managed Agents: własna chmura Google dla agentów
Równolegle Google uruchomiło w publicznym preview Managed Agents w Gemini API — izolowane środowiska Linux hostowane przez Google, w których agenty działają stale i statefulness między sesjami jest zachowana. To odpowiedź na praktyczny problem: gdzie bezpiecznie uruchomić autonomiczny agent, który może działać godzinami.
Bezpieczeństwo
Google zaimplementowało dwie kluczowe zabezpieczenia: obowiązkowe potwierdzenie użytkownika przed wrażliwymi akcjami oraz automatyczne zatrzymanie zadania przy wykryciu indirect prompt injection. Mimo to eksperci ostrzegają, że rozbudowane agenty wymagają architektury defence-in-depth, sandboxingu i kontroli człowieka w pętli.