Мой PDF содержит 600 страниц с изображениями текста. Имеет 2 слоя .
Слой 1: Фоновое цветное изображение
Слой 2: Текстовое изображение
Я хотел бы удалить все слои фонового изображения в общем файле PDF, как показано на рисунке.
Не могли бы вы предложить мне какое-нибудь программное обеспечение / инструмент?
Обзор
Вам нужны такие инструменты, как Scan Tailor и unpaper , способные устанавливать порог ], Удаление пятен и удаление шума . Оба инструмента работают с изображениями, а не с файлами PDF, но вы можете легко конвертировать между различными форматами, которые используют эти приложения, и PDF, используя инструменты, описанные в конце этого ответа.
ScanTailor
Видеоруководство можно найти здесь . Более обширная документация доступна на официальной вики . Возможно, вас больше всего заинтересует страница черно-белого режима вывода и настройки фильтра .
Unpaper
Я сам еще не работал с unpaper
. Из того, что я понимаю, у него гораздо больше возможностей, чем у ScanTailor, но освоить его гораздо сложнее.
Графического интерфейса нет, и вам придется полагаться на ключи командной строки, чтобы выполнить свою работу. С другой стороны, это означает, что преобразования с помощью unpaper
могут быть легко автоматизированы с помощью сценариев.
Вы можете найти несколько примеров сценариев, касающихся преобразования сканирования в черно-белое и удаления фона здесь .
Некоторые полезные инструменты при работе с unpaper и ScanTailer
У меня недостаточно времени, чтобы написать полное руководство по ScanTailor и unpaper¹, но вот несколько советов, касающихся преобразование между .pdf
и форматами изображений, поддерживаемыми этими инструментами:
вы можете использовать pdfimages
для преобразования документов PDF в одностраничные файлы .ppm
, который можно прочитать по unpaper
.
Пример использования:
pdfimages *.pdf ./extracted-images
ScanTailor не принимает .ppm
файлы в качестве входных данных. Вам придется сначала преобразовать их в другой формат, например, без потерь .png
. mogrify
из набора инструментов imagemagick
могут сделать это для вас.
Пример использования:
mogrify -format png *.ppm
Выходным форматом ScanTailor и unpaper являются одностраничные файлы .tiff
. Чтобы преобразовать их обратно в .pdf
, я бы предложил использовать tiffcp
и tiff2pdf
.
Пример использования:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Установка
Эта команда установит все инструменты, упомянутые выше:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: всем, кто читает это, пожалуйста, не стесняйтесь составить более подробный ответ на основе ScanTailor и / или без бумаги.
Может быть, Мастер PDF-редактор может помочь вам, хотя я не нашел способа сделать это автоматически на 600 страницах.
Я только что нашел очень простое решение:
install gscan2pdf
.
Откройте gscan2pdf
и импортируйте PDF.
инструменты-> порог. Дефолт в 80% работал хорошо для меня.
сохранить PDF в другом месте.