← Wszystkie artykuły

MinerU 3.3.1: open-source parser dokumentów gotowy na RAG w produkcji

MinerU zmienił licencję z AGPL na Apache 2.0, dodał model 1.2B do parsowania wykresów w tabelach i uruchomił oficjalny serwer MCP — parser dokumentów jest teraz gotowy na wdrożenia produkcyjne.

MinerU to open-source'owy parser dokumentów rozwijany przez OpenDataLab, który konwertuje PDF, DOCX, PPTX, XLSX i obrazy na markdown/JSON gotowy dla pipeline'ów LLM i RAG. W czerwcu projekt osiągnął trzy ważne kamienie milowe jednocześnie.

Zmiana licencji. AGPL zostało zastąpione MinerU Open Source License opartą na Apache 2.0, co usuwa główną barierę dla wdrożeń komercyjnych i integracji z zamkniętym oprogramowaniem.

Nowy model VLM 1.2B. MinerU2.5-Pro-2604-1.2B potrafi parsować wykresy osadzone wewnątrz tabel, łączyć obcięte akapity przez granice stron, scalać tabele wielostronicowe i rozpoznawać obrazy w tabelach — problemy, które potrafiły „niszczyć" dokumenty przed dotarciem do modelu.

Serwer MCP. Oficjalny MCP Server pozwala Claude Desktop, Cursor, Windsurf i każdemu klientowi zgodnemu z MCP parsować dokumenty jako natywne narzędzie. Flash mode działa za darmo do 20 stron / 10 MB na plik.

Projekt ma ok. 70 tys. gwiazdek na GitHubie i obsługuje ponad 109 języków. Obecna wersja to v3.3.1.

#rag#pdf#parser#open-source#mcp#dokumenty

Źródła