Данные Разработка Безопасность Инфраструктура Курсы и книги

Mistral AI выпустила OCR 4 для структурного распознавания документов

CITNews

24.06.2026

Mistral AI выпустила OCR 4 — модель для распознавания документов, которая возвращает не только текст, но и структуру страницы: координаты блоков, типы элементов и оценки уверенности. Компания заявляет поддержку 170 языков и средний win rate 72% в слепом сравнении с конкурентами; модель доступна через API и облачные платформы.

Разработчик ИИ-моделей Mistral AI выпустил OCR 4 — модель для распознавания и структурирования документов. Она работает с PDF, DOC, PPT и OpenDocument и, помимо текста, возвращает координаты блоков, типы элементов — заголовки, таблицы, формулы, подписи и другие фрагменты, — а также оценки уверенности по страницам и словам.

Mistral AI позиционирует OCR 4 как компонент для корпоративного поиска, RAG-конвейеров и агентных сценариев обработки документов. Заявлена поддержка 170 языков в 10 языковых группах; для организаций с жесткими требованиями к хранению данных предусмотрено самостоятельное развертывание в одном контейнере, доступное корпоративным клиентам.

В собственном сравнении Mistral AI модель получила средний win rate 72%: независимые аннотаторы вслепую оценивали результаты на более чем 600 документах на 12+ языках. Компания также указывает результат 85,20 на OlmOCRBench, но отдельно оговаривает ограничения публичных бенчмарков и рекомендует проверять качество на собственных документах.

OCR 4 доступна через API, Mistral Studio, Amazon SageMaker и Microsoft Foundry; интеграция со Snowflake Parse Document заявлена как будущая. Стоимость API составляет $4 за 1000 страниц, при использовании Batch API — $2 за 1000 страниц; Document AI на базе OCR 4 стоит $5 за 1000 страниц.

Источник: mistral.ai

Новости IT

24 июня 2026

FT: запрещённые ускорители Nvidia в Китае подорожали более чем вдвое

24 июня 2026

Apple удалила Happ Proxy Utility Plus из российского App Store

24 июня 2026

Mistral AI выпустила OCR 4 для структурного распознавания документов

24 июня 2026

SpaceXAI возобновит проект водоочистки для дата-центров в Мемфисе

24 июня 2026

AWS вывела EC2 G7 на GPU NVIDIA Blackwell и включила cuVS в OpenSearch Serverless