Регулярные файлы PDF состоят из векторных элементов, таких как текст и векторная графика и другие встроенные данные, таких как файлы изображений. Извлечение последнего довольно легко с утилитами такой как pdfimages
(как описано в этом Вопросы и ответы).
С другой стороны, отсканированные документы в формате PDF являются компиляциями отсканированных страниц. Каждая страница является растровым изображением, возможно overlayed со слоем распознаваемого текста, произведенным OCR. В результате выполнение pdfimages
на отсканированном документе в формате PDF просто извлечет отсканированные страницы.
То, что я ищу, является приложением или утилитой командной строки, которая может различать изображения и текст в отсканированном документе в формате PDF и извлечь первого.
Чему-нибудь нравится, это существует?
Используйте pdfimages инструмент экстрактора изображения PDF
Использование: pdfimages [options] <PDF-file> <image-root>
Пример: Сохраните образы в формате
JPEGpdfimages-j in.pdf/tmp/out
пз: кто-то, отметьте это как дубликат: встроенные изображения Извлечения от PDF [creadits переходит в pl1nk: https://askubuntu.com/users/48864/pl1nk]