DeepSeek DSpark: inferencja V4 nawet 85% szybciej — bez trenowania od zera
DeepSeek opublikowało DSpark — framework spekulatywnego dekodowania, który przyspiesza generację tokenów przez DeepSeek-V4 o 60–85% bez trenowania nowego modelu od zera. Razem otwarto cały stos DeepSpec na licencji MIT.
60–85% szybciej, bez dotykania wag modelu. Tak w skrócie brzmi obietnica DSpark — metody spekulatywnego dekodowania, którą DeepSeek upubliczniło 27 czerwca 2026 razem z otwartym kodem i gotowymi checkpointami na Hugging Face.
Na czym polega trick
Klasyczne spekulatywne dekodowanie używa małego modelu-szkicu, który zgaduje kilka tokenów do przodu, a duży model weryfikuje je hurtem. DSpark idzie krok dalej: łączy równoległy szkielet DFlash (generuje bazowe prawdopodobieństwa dla wszystkich pozycji naraz) z małą sekwencyjną głowicą, która dodaje kontekstowe korekty przed losowaniem każdego tokenu. Dodatkowa głowica ufności ocenia szanse przeżycia każdego tokenu, a harmonogramista sprzętowy dynamicznie skraca lub wydłuża blok weryfikacji zależnie od obciążenia GPU.
Cały mechanizm podczepiony jest do istniejących wag V4 — żadnego pretrainingu od zera.
Liczby
Na DeepSeek-V4 w produkcji:
- V4-Flash: 60–85% szybsza generacja per użytkownik wobec bazowego MTP-1
- V4-Pro: 57–78% szybciej
Offline, w testach przyjętej długości bloku: +26–31% nad Eagle3 i +16–18% nad samym DFlash.
Co jest otwarte
Razem z DSpark DeepSeek upubliczniło DeepSpec — pełny stos do trenowania i ewaluacji algorytmów spekulatywnego dekodowania na licencji MIT. W środku trzy algorytmy (DSpark, DFlash, Eagle3), skrypty przygotowania danych, potoki multi-GPU i ewaluacja na dziewięciu benchmarkach. Checkpointy DeepSeek-V4-Pro-DSpark i DeepSeek-V4-Flash-DSpark czekają już na Hugging Face.
Jeśli korzystasz z V4 przez API lub lokalnie — po stronie klienta nie zmieniasz nic.