Weave Router: jeden endpoint zamiast jednego drogiego modelu — 40–70% taniej

Weave Router to open-source proxy server trenowany za pomocą RL na setkach tysięcy tras agentów — automatycznie kieruje każde zapytanie do najtańszego modelu, który poradzi sobie z zadaniem. Twórcy raportują 40–70% redukcji kosztów tokenów bez pogorszenia jakości.

27 czerwca 2026 projekt Weave Router zadebiutował na Hacker News Show HN, zbierając ponad 150 punktów od deweloperów szukających sposobów na obniżenie rachunków za tokeny. Narzędzie rozwiązuje konkretny, kosztowny problem: większość zespołów wysyła każde zapytanie agenta do jednego flagowego modelu, podczas gdy 60–70% z nich to proste polecenia, które równie dobrze obsługuje model open-source za 1/40 ceny.

Jak działa routing

Weave Router działa jako proxy między narzędziami (Claude Code, Codex, Cursor) a dostawcami modeli. Każde przychodzące zapytanie jest embeddowane przez mały model ONNX (czas obliczeń: kilka ms) i porównywane ze zbiorem zamrożonych klastrów intencji. Na tej podstawie router wybiera najtańszego dostawcę, który historycznie radził sobie z tym typem zadania równie dobrze jak model referencyjny.

W praktyce: złożone planowanie trafia do Opus 4.8, zbieranie kontekstu do DeepSeek V4, a proste implementacje do szybszych, tańszych alternatyw — wszystko transparentnie, bez zmian w kodzie po stronie klienta.

Session pinning — kluczowy detal

Naiwne routery per-request mają ukryty koszt: każda zmiana modelu w trakcie sesji traci cache kontekstu, generując dodatkowe wydatki na ponowne przetworzenie. Weave Router utrzymuje sticky routing w ramach sesji — przełącza model tylko wtedy, gdy cache i tak zostałby utracony. To właśnie sprawia, że oszczędności są realne, a nie tylko pozorne.

Projekt jest dostępny na GitHub (Elastic License 2.0), działa jako samodzielny serwis Go i jest kompatybilny z Anthropic Messages API, OpenAI Chat Completions oraz Google Gemini API. Opcja hosted dostępna pod router.workweave.ai.

Weave Router: jeden endpoint zamiast jednego drogiego modelu — 40–70% taniej

Jak działa routing

Session pinning — kluczowy detal

Źródła