← Wszystkie artykuły

NVIDIA Nemotron 3 Ultra — 550 mld parametrów open-weight dla agentów

NVIDIA udostępniło 4 czerwca największy open-weight model z amerykańskiego laboratorium: Nemotron 3 Ultra o 550 mld parametrach (55 mld aktywnych). Hybrydowa architektura Mamba-Transformer osiąga 300+ tokenów/s i trafia na Hugging Face z pełną transparentnością danych treningowych.

NVIDIA ogłosiło Nemotron 3 Ultra 1 czerwca na Computex w Tajpej, a wagi modelu trafiły publicznie 4 czerwca 2026. To model klasy MoE (Mixture-of-Experts) z 550 mld parametrów łącznie i 55 mld aktywnych podczas inferencji — wyjątkowy stosunek 10:1. Architektura łączy warstwami Mamba (state space) z blokami Transformer (LatentMoE), co radykalnie zmniejsza koszt KV cache przy długich kontekstach.

Wydajność i kontekst

Na Artificial Analysis Intelligence Index Ultra osiąga 48 punktów — najwyżej spośród wszystkich open-weight modeli z USA, 8,5 pkt przed kolejnym Gemma 4 31B. Na PinchBench Agent Productivity model uzyskał 91%, dorównując najlepszym modelom chińskim. Okno kontekstu wynosi 262 tys. tokenów w BF16; z kwantyzacją NVFP4 na GPU Blackwell rozszerza się do 1 mln tokenów. Prędkość na DeepInfra przekracza 300 tokenów/s w BF16.

Ważny szczegół: NVIDIA opublikowało razem z wagami pełne dane treningowe, kody ewaluacji i reward modele — to bezprecedensowy poziom otwartości dla modelu tej skali. Licencja OpenMDW-1.1 (Linux Foundation) jest w pełni permisywna.

Jak działa hybrydowa architektura

Warstwy Mamba przetwarzają sekwencje jako rekurencyjne stany, a nie pełną macierz uwagi — dzięki temu przepustowość długich kontekstów rośnie liniowo, nie kwadratowo. LatentMoE przekierowuje tokeny do jednego z kilkudziesięciu ekspertów, co przy 55B aktywnych parametrach daje wydajność zbliżoną do gęstego modelu 100B+, ale przy znacznie niższych kosztach obliczeniowych. NVIDIA deklaruje 30% niższe zużycie tokenów na zadanie w porównaniu z alternatywami.

#NVIDIA#Nemotron#open-weight#MoE#agenci#Mamba

Źródła