llama.cpp zyskuje wsparcie Intel Xe i zaktualizowany OpenVINO — lokalny LLM bez NVIDIA

26 czerwca llama.cpp wypuściło kilka nowych buildów z obsługą architektury Intel Xe1 (karty Arc Pro) oraz OpenVINO 2026.2.1. Projekty są teraz samodzielne — nie wymagają dodatkowej instalacji środowiska. Pojawiły się też optymalizacje CUDA zmniejszające synchronizacje.

26 czerwca 2026 projekt llama.cpp wypuścił kilka punktowych buildów istotnych dla osób uruchamiających lokalne modele językowe poza ekosystemem NVIDIA/AMD.

Wsparcie architektury Intel Xe1

Build b9813 dodaje obsługę INTEL_XE1 — nowego enum architektonicznego obejmującego karty Intel Arc z rodziny Xe-LPG Plus (m.in. Arc Pro B60/B70, używane w stacjach roboczych). Nowość włącza coopmat1 — optymalizację mnożenia macierzy na sprzęcie Intel, dotychczas niedostępną w llama.cpp. Oznacza to zauważalne przyspieszenie prefill na kartach Intel Arc z rodziny Xe-LPG Plus.

OpenVINO 2026.2.1: samodzielne paczki

Build b9817 aktualizuje backend OpenVINO do wersji 2026.2.1. Kluczowa zmiana: paczki OpenVINO są teraz self-contained — nie wymagają osobnej instalacji środowiska OpenVINO w systemie. Upraszcza to dystrybucję i konfigurację llama.cpp dla użytkowników, którzy chcą uruchamiać modele wyłącznie na CPU Intela lub zintegrowanej grafice (iGPU), bez dedykowanej karty graficznej.

CUDA: mniej synchronizacji

Build b9820 przynosi poprawki schedulera CUDA — zmniejsza liczbę wymaganych synchronizacji podczas podzielonego obliczenia (split compute) przez asynchroniczne kopie CPU→CUDA. Efekt: wyższe wykorzystanie GPU w scenariuszach z dużym kontekstem lub wieloma równoległymi requestami.

Łącznie zmiany z 26 czerwca rozszerzają sprzętowe portfolio llama.cpp o kolejny segment (Intel Arc) i obniżają próg wejścia dla wdrożeń CPU-only lub iGPU — ważny krok w kierunku prawdziwie sprzętowo-agnostycznego inference lokalnych LLM.

llama.cpp zyskuje wsparcie Intel Xe i zaktualizowany OpenVINO — lokalny LLM bez NVIDIA

Wsparcie architektury Intel Xe1

OpenVINO 2026.2.1: samodzielne paczki

CUDA: mniej synchronizacji

Źródła