DeepSeek DSpark: inferencja V4 nawet 85% szybciej — bez trenowania od zera

DeepSeek opublikowało DSpark — framework spekulatywnego dekodowania, który przyspiesza generację tokenów przez DeepSeek-V4 o 60–85% bez trenowania nowego modelu od zera. Razem otwarto cały stos DeepSpec na licencji MIT.

60–85% szybciej, bez dotykania wag modelu. Tak w skrócie brzmi obietnica DSpark — metody spekulatywnego dekodowania, którą DeepSeek upubliczniło 27 czerwca 2026 razem z otwartym kodem i gotowymi checkpointami na Hugging Face.

Na czym polega trick

Klasyczne spekulatywne dekodowanie używa małego modelu-szkicu, który zgaduje kilka tokenów do przodu, a duży model weryfikuje je hurtem. DSpark idzie krok dalej: łączy równoległy szkielet DFlash (generuje bazowe prawdopodobieństwa dla wszystkich pozycji naraz) z małą sekwencyjną głowicą, która dodaje kontekstowe korekty przed losowaniem każdego tokenu. Dodatkowa głowica ufności ocenia szanse przeżycia każdego tokenu, a harmonogramista sprzętowy dynamicznie skraca lub wydłuża blok weryfikacji zależnie od obciążenia GPU.

Cały mechanizm podczepiony jest do istniejących wag V4 — żadnego pretrainingu od zera.

Liczby

Na DeepSeek-V4 w produkcji:

V4-Flash: 60–85% szybsza generacja per użytkownik wobec bazowego MTP-1
V4-Pro: 57–78% szybciej

Offline, w testach przyjętej długości bloku: +26–31% nad Eagle3 i +16–18% nad samym DFlash.

Co jest otwarte

Razem z DSpark DeepSeek upubliczniło DeepSpec — pełny stos do trenowania i ewaluacji algorytmów spekulatywnego dekodowania na licencji MIT. W środku trzy algorytmy (DSpark, DFlash, Eagle3), skrypty przygotowania danych, potoki multi-GPU i ewaluacja na dziewięciu benchmarkach. Checkpointy DeepSeek-V4-Pro-DSpark i DeepSeek-V4-Flash-DSpark czekają już na Hugging Face.

Jeśli korzystasz z V4 przez API lub lokalnie — po stronie klienta nie zmieniasz nic.

DeepSeek DSpark: inferencja V4 nawet 85% szybciej — bez trenowania od zera

Na czym polega trick

Liczby

Co jest otwarte

Źródła