Gemma 4 12B: multimodalny model Google DeepMind mieści się w 8 GB VRAM

Google DeepMind udostępniło Gemma 4 12B — pierwszy model z rodziny Gemma obsługujący tekst, obraz, dźwięk i wideo. Działa już przy 6,6 GB VRAM i uruchamia się jedną komendą w Ollama.

3 czerwca 2026 Google DeepMind opublikowało Gemma 4 12B — model open-weights na licencji Apache 2.0 obsługujący cztery modalności wejściowe: tekst, obraz, audio i wideo. To pierwszy model z serii Gemma z natywnym audio.

Architektura jest bezenkoderowa (encoder-free): wszystkie modalności przetwarzane są w jednej sieci, bez osobnych enkoderów dla każdego typu danych. Okno kontekstu wynosi 256 000 tokenów, a model obsługuje ponad 140 języków. Dostępne są warianty pre-trained i instruction-tuned.

Parametry sprzętowe

Skwantyzowana wersja Q4_K_M zajmuje 6,6 GB VRAM — mieści się na kartach 8 GB. Pełna precyzja BF16 wymaga ok. 24 GB. Na benchmarku MMLU Pro model uzyskał 77,2%, bijąc poprzednika Gemma 3 27B (67,6%) przy niemal dwukrotnie mniejszym zapotrzebowaniu na pamięć.

Jak uruchomić

Najszybsza ścieżka przez Ollama:

ollama run gemma4:12b

Pobierany plik GGUF waży ok. 7,6 GB. Dla wyższej wydajności produkcyjnej dostępna jest obsługa przez vLLM (BF16) i llama.cpp. Model wystawia endpoint zgodny z API OpenAI na localhost:11434.

#Gemma#Google DeepMind#Ollama#multimodal#audio#local LLM#open weights

Gemma 4 12B: multimodalny model Google DeepMind mieści się w 8 GB VRAM

Parametry sprzętowe

Jak uruchomić

Źródła