Все кейсы
ИИ (AI) 2024

OCR и AI для автоматизации обработки изображений

Разработали систему распознавания и обработки изображений: автоматическое извлечение текста и данных из документов и фото.

Клиент
NDA
Сфера
Документооборот
Платформа
Python / ML
Срок
4 месяца
OCR и AI для автоматизации обработки изображений
96%
точность распознавания
×20
быстрее ручной обработки
−70%
ручного труда
10k+
документов в день

О проекте

Цель

Получить из PDF-каталога производителя структурированные данные (OEM-коды, модели, годы, применяемость) для последующей загрузки в систему.

Задачи
  • Извлечь текст со сканов страниц.
  • Распознать и структурировать табличные данные.
  • Сохранить результат в удобном для интеграции формате (JSON).

Задача

Решение

Мы преобразовали страницы PDF в изображения (PyMuPDF) и использовали два подхода к OCR: локальный Tesseract и облачный сервис ocr.space API. Это позволило повысить точность распознавания, особенно на сложных страницах. Далее подключили GPT для парсинга таблиц и выделения ключевых данных.

Сложности

Работа с таблицами в таких документах - отдельный гемор: данные расположены хаотично, подписи налезают друг на друга, а в таблицы нередко вставлены картинки. Всё это сильно мешает автоматизации и требует комбинированного подхода.

Результат

Получили структурированные данные и сохранили их в JSON-файлы, готовые для интеграции в e-commerce-систему.

Инструменты

PyMuPDF, Tesseract OCR, ocr.space API, Python, GPT.
Решение

Что мы сделали

OCR-движок

Внедрили распознавание текста с предобработкой изображений: выравнивание, очистка, бинаризация.

Извлечение данных

Обучили модель выделять нужные поля и структурировать данные.

Конвейер обработки

Построили пайплайн с очередью и автоматической проверкой результата.

Контроль качества

Добавили метрики точности и ручную верификацию спорных случаев.

Галерея

Как это выглядит

То, на что уходили дни ручного ввода, теперь делается автоматически за минуты и с высокой точностью.

Хотите такой же результат?

Расскажите о задаче - подберём подход, оценим объём и сроки. Покажем релевантные вашему проекту кейсы.

Оставьте заявку

close

Предпочтительный способ связи

Телефон
Email
Telegram
attachment Добавить файлы
delete Удалить
checkmark
Я согласен на обработку персональных данных
close
checkmark-circle

Cпасибо! Данные успешно отправлены.