Как удалить фон страницы в оттенках серого при сканировании документа PDF, сохранив текст? (Бинаризация)

Мой PDF содержит 600 страниц с изображениями текста. Имеет 2 слоя .

  • Слой 1: Фоновое цветное изображение

  • Слой 2: Текстовое изображение

Я хотел бы удалить все слои фонового изображения в общем файле PDF, как показано на рисунке.

enter image description here

Не могли бы вы предложить мне какое-нибудь программное обеспечение / инструмент?

enter image description here

9
задан 16 December 2015 в 10:44

3 ответа

Обзор

Вам нужны такие инструменты, как Scan Tailor и unpaper , способные устанавливать порог ], Удаление пятен и удаление шума . Оба инструмента работают с изображениями, а не с файлами PDF, но вы можете легко конвертировать между различными форматами, которые используют эти приложения, и PDF, используя инструменты, описанные в конце этого ответа.

ScanTailor

Видеоруководство можно найти здесь . Более обширная документация доступна на официальной вики . Возможно, вас больше всего заинтересует страница черно-белого режима вывода и настройки фильтра .

Unpaper

Я сам еще не работал с unpaper. Из того, что я понимаю, у него гораздо больше возможностей, чем у ScanTailor, но освоить его гораздо сложнее.

Графического интерфейса нет, и вам придется полагаться на ключи командной строки, чтобы выполнить свою работу. С другой стороны, это означает, что преобразования с помощью unpaper могут быть легко автоматизированы с помощью сценариев.

Вы можете найти несколько примеров сценариев, касающихся преобразования сканирования в черно-белое и удаления фона здесь .


Некоторые полезные инструменты при работе с unpaper и ScanTailer

У меня недостаточно времени, чтобы написать полное руководство по ScanTailor и unpaper¹, ​​но вот несколько советов, касающихся преобразование между .pdf и форматами изображений, поддерживаемыми этими инструментами:

  • вы можете использовать pdfimages для преобразования документов PDF в одностраничные файлы .ppm, который можно прочитать по unpaper.

    Пример использования:

    pdfimages *.pdf ./extracted-images

  • ScanTailor не принимает .ppm файлы в качестве входных данных. Вам придется сначала преобразовать их в другой формат, например, без потерь .png. mogrify из набора инструментов imagemagick могут сделать это для вас.

    Пример использования:

    mogrify -format png *.ppm

  • Выходным форматом ScanTailor и unpaper являются одностраничные файлы .tiff. Чтобы преобразовать их обратно в .pdf, я бы предложил использовать tiffcp и tiff2pdf .

    Пример использования:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

Установка

Эта команда установит все инструменты, упомянутые выше:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: всем, кто читает это, пожалуйста, не стесняйтесь составить более подробный ответ на основе ScanTailor и / или без бумаги.

0
ответ дан 16 December 2015 в 10:44

Может быть, Мастер PDF-редактор может помочь вам, хотя я не нашел способа сделать это автоматически на 600 страницах.

0
ответ дан 16 December 2015 в 10:44

Я только что нашел очень простое решение:

  • install gscan2pdf.

  • Откройте gscan2pdf и импортируйте PDF.

  • инструменты-> порог. Дефолт в 80% работал хорошо для меня.

  • сохранить PDF в другом месте.

0
ответ дан 16 December 2015 в 10:44
  • 1
    Эта проблема, кажется, поврежденная символьная ссылка, который этот won' t фиксируют. Также, что you' высказывание ре не является очень четким. – wjandrea 14 March 2018 в 00:44

Другие вопросы по тегам:

Похожие вопросы: