OCR и AI для автоматизации обработки PDF и изображений
О проекте
Цель
Получить из PDF-каталога производителя структурированные данные (OEM-коды, модели, годы, применяемость) для последующей загрузки в систему.
Задачи
- Извлечь текст со сканов страниц.
- Распознать и структурировать табличные данные.
- Сохранить результат в удобном для интеграции формате (JSON).
Задачи
Решение
Мы преобразовали страницы PDF в изображения (PyMuPDF) и использовали два подхода к OCR: локальный Tesseract и облачный сервис ocr.space API. Это позволило повысить точность распознавания, особенно на сложных страницах. Далее подключили GPT для парсинга таблиц и выделения ключевых данных.
Сложности
Работа с таблицами в таких документах — отдельный гемор: данные расположены хаотично, подписи налезают друг на друга, а в таблицы нередко вставлены картинки. Всё это сильно мешает автоматизации и требует комбинированного подхода.
Результат
Получили структурированные данные и сохранили их в JSON-файлы, готовые для интеграции в e-commerce-систему.
Инструменты
PyMuPDF, Tesseract OCR, ocr.space API, Python, GPT.