Разделение изображений из текста в отсканированном документе в формате PDF

Question 1

Регулярные файлы PDF состоят из векторных элементов, таких как текст и векторная графика и другие встроенные данные, таких как файлы изображений. Извлечение последнего довольно легко с утилитами такой как pdfimages (как описано в этом Вопросы и ответы).

С другой стороны, отсканированные документы в формате PDF являются компиляциями отсканированных страниц. Каждая страница является растровым изображением, возможно overlayed со слоем распознаваемого текста, произведенным OCR. В результате выполнение pdfimages на отсканированном документе в формате PDF просто извлечет отсканированные страницы.

То, что я ищу, является приложением или утилитой командной строки, которая может различать изображения и текст в отсканированном документе в формате PDF и извлечь первого.

Чему-нибудь нравится, это существует?

Question 2

Используйте pdfimages инструмент экстрактора изображения PDF

Использование: pdfimages [options] <PDF-file> <image-root>

Пример: Сохраните образы в формате

pdfimages-j in.pdf/tmp/out

JPEG

пз: кто-то, отметьте это как дубликат: встроенные изображения Извлечения от PDF [creadits переходит в pl1nk: https://askubuntu.com/users/48864/pl1nk]

Community · Answer 1 · 1 December 2019 в 17:05