Mistral OCR 4: inteligentne parsowanie dokumentów z myślą o RAG

Mistral AI wydało OCR 4 — model rozumiejący strukturę dokumentów: zwraca bounding boksy, klasyfikację bloków i wyniki pewności, obsługuje 170 języków. Można wdrożyć lokalnie jako jeden kontener.

23 czerwca 2026 Mistral AI udostępniło OCR 4 — model do ekstrakcji i interpretacji dokumentów, który idzie znacznie dalej niż klasyczne OCR. Zamiast zwracać surowy tekst, model produkuje bounding boksy na poziomie akapitu, klasyfikuje typy bloków (tytuły, tabele, równania, podpisy) i dołącza wyniki pewności dla każdego słowa. Obsługuje 170 języków w 10 grupach językowych, w tym języki niszowe, i akceptuje formaty PDF, DOC, PPT oraz OpenDocument.

Kluczową zaletą jest możliwość samodzielnego hostowania — model dystrybuowany jest jako pojedynczy kontener, co pozwala firmom przetwarzać wrażliwe dokumenty bez wysyłania ich do zewnętrznego API. Model dostępny jest też przez API Mistral, Amazon SageMaker i Microsoft Foundry. Cena: 4 USD za 1000 stron przez API (2 USD w trybie wsadowym).

W kontekście RAG OCR 4 integruje się z Mistral Search Toolkit jako komponent ingestion: czyste, sklasyfikowane bloki tekstu z bounding boksami stają się lepszymi jednostkami retrieval i umożliwiają cytowania z podaniem lokalizacji w dokumencie. Niezależni adnotatorzy preferują OCR 4 w 72% przypadków w porównaniu z konkurencyjnymi rozwiązaniami. Na benchmarku OlmOCRBench model osiąga wynik 85,20 — najlepszy wśród testowanych narzędzi.

#Mistral#OCR#RAG#dokumenty#PDF#open source

Mistral OCR 4: inteligentne parsowanie dokumentów z myślą o RAG

Źródła