Как преобразовать отсканированный PDF в PDF с текстом

Я отсканировал около 80 страниц в оттенки серого в формате pdf (формат изображения). Конечный размер файла составляет около 70 МБ, что очень много.

Сейчас я ищу способ преобразования PDF-файла на основе изображений в градациях серого в простой PDF-файл на основе черно-белого текста.

Я сделал много попыток с gs, но безуспешно (только несколько процентов восстановления). Если у какого-либо эксперта есть идея, пожалуйста, дайте мне знать.

36
задан 15 March 2013 в 03:21

8 ответов

gImageReader - это простой интерфейс GTK + для tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

Извините за немецкий текст

0
ответ дан 15 March 2013 в 03:21

pdfsandwich

Загружает тессеракт и другие при установке. Простое решение за один шаг и может быть написано в сценарии. Он может использовать hocr2pdf для создания простого текста в формате pdf, но он не готов к прайм-тайм ... пока. По умолчанию используется tesseract и создается «зажатый» pdf: изображение + текст внизу.

Встроенное изображение можно удалить с помощью команд, таких как:

gs -o ocr_noIMG.pdf -sDEVICE = pdfwrite -dFILTERIMAGE ocr_image.pdf

, но текст скрыт, поэтому выглядит как пустая страница.

При загрузке PDF в LibreOffice Draw открывается текст, и изображение можно удалить вручную.

0
ответ дан 15 March 2013 в 03:21

Вы можете попробовать pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

. Для выполнения синтаксиса используется

 pdfocr -i input.pdf -o output.pdf

, где input.pdf - имя входного файла и output.pdf выходной файл.

По умолчанию используется Tesseract. Чтобы установить его:

 sudo apt-get install tesseract-ocr

pdfocr создает встроенный текстовый слой.

0
ответ дан 15 March 2013 в 03:21

Для графического интерфейса, предложенного @ A.B. на Ubuntu 14.04 вы должны выполнить следующие действия:

ocr tesseract на Ubuntu 14.04

или в любом случае добавить в список репозиториев: работы:

sudo apt-get install gimagereader
0
ответ дан 15 March 2013 в 03:21

Вы можете попробовать shrinkpdf , чтобы уменьшить размер файла, а затем ocr.sh , чтобы добавить текстовый слой.

0
ответ дан 15 March 2013 в 03:21

В вашем PDF-файле щелкните правой кнопкой мыши и сохраните каждую страницу в виде изображения (или найдите какой-нибудь инструмент, который выполняет все страницы автоматически). Ищите тессеракт. Это найдет YAGF, который вы должны установить. В YAGF щелкните Файл -> Открыть изображение и загрузите изображение. Затем нажмите Файл -> Распознать.

У меня была 100% точность в моем первом тесте.

0
ответ дан 15 March 2013 в 03:21

Посмотрите хорошо работающий OCRmyPDF.

4
ответ дан 13 May 2020 в 14:44

Я столкнулся с этим вопросом, пытаясь преобразовать отсканированный PDF-файл в PDF-файл с возможностью выбора текста. Позже я нашел pdfsandwich , с которым у меня были очень хорошие результаты, и я удивлен, что он до сих пор не упоминается подробно в ответах.

Дополнительная информация доступна здесь: http://www.tobias-elze.de/pdfsandwich/

Он использует спонсируемую Google tesseract библиотеку оптического распознавания символов за кулисами, но упрощает этапы обработки и создания PDF.

По состоянию на декабрь 2020 года он включен в официальные репозитории Ubuntu. Для установки:

sudo apt update && sudo apt install pdfsandwich

Для обработки PDF-файла с именем input.pdf:

pdfsandwich input.pdf

По умолчанию ваш вывод будет выглядеть примерно так: input_ocr.pdf

В Ubuntu 20.04 это не изначально не работает из-за проблемы с правами доступа Ghostscript. Это можно обойти, добавив XML-комментарии () вокруг следующих строк в /etc/ImageMagick-6/policy.xml (в моем файл, это были строки 90–95):

  <policy domain="coder" rights="none" pattern="PS" />
  <policy domain="coder" rights="none" pattern="PS2" />
  <policy domain="coder" rights="none" pattern="PS3" />
  <policy domain="coder" rights="none" pattern="EPS" />
  <policy domain="coder" rights="none" pattern="PDF" />
  <policy domain="coder" rights="none" pattern="XPS" />

Ссылка на это исправление: https://www.itechlounge.net/2020/09/web-imagickexception-attempt-to-perform-an-operation-not -разрешено-политикой-безопасности-pdf/

Чтобы прочитать документацию:

man pdfsandwich
0
ответ дан 31 December 2020 в 11:40

Другие вопросы по тегам:

Похожие вопросы: