Я отсканировал около 80 страниц в оттенки серого в формате pdf (формат изображения). Конечный размер файла составляет около 70 МБ, что очень много.
Сейчас я ищу способ преобразования PDF-файла на основе изображений в градациях серого в простой PDF-файл на основе черно-белого текста.
Я сделал много попыток с gs
, но безуспешно (только несколько процентов восстановления). Если у какого-либо эксперта есть идея, пожалуйста, дайте мне знать.
gImageReader - это простой интерфейс GTK + для tesseract-ocr
.
sudo apt-get install gimagereader tesseract-ocr
Извините за немецкий текст
pdfsandwich
blockquote>Загружает тессеракт и другие при установке. Простое решение за один шаг и может быть написано в сценарии. Он может использовать
hocr2pdf
для создания простого текста в формате pdf, но он не готов к прайм-тайм ... пока. По умолчанию используется tesseract и создается «зажатый» pdf: изображение + текст внизу.Встроенное изображение можно удалить с помощью команд, таких как:
gs -o ocr_noIMG.pdf -sDEVICE = pdfwrite -dFILTERIMAGE ocr_image.pdf
blockquote>, но текст скрыт, поэтому выглядит как пустая страница.
При загрузке PDF в
LibreOffice Draw
открывается текст, и изображение можно удалить вручную.
Вы можете попробовать pdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
. Для выполнения синтаксиса используется
pdfocr -i input.pdf -o output.pdf
, где input.pdf
- имя входного файла и output.pdf
выходной файл.
По умолчанию используется Tesseract. Чтобы установить его:
sudo apt-get install tesseract-ocr
pdfocr создает встроенный текстовый слой.
Для графического интерфейса, предложенного @ A.B. на Ubuntu 14.04 вы должны выполнить следующие действия:
или в любом случае добавить в список репозиториев: работы:
sudo apt-get install gimagereader
Вы можете попробовать shrinkpdf , чтобы уменьшить размер файла, а затем ocr.sh , чтобы добавить текстовый слой.
В вашем PDF-файле щелкните правой кнопкой мыши и сохраните каждую страницу в виде изображения (или найдите какой-нибудь инструмент, который выполняет все страницы автоматически). Ищите тессеракт. Это найдет YAGF, который вы должны установить. В YAGF щелкните Файл -> Открыть изображение и загрузите изображение. Затем нажмите Файл -> Распознать.
У меня была 100% точность в моем первом тесте.
Я столкнулся с этим вопросом, пытаясь преобразовать отсканированный PDF-файл в PDF-файл с возможностью выбора текста. Позже я нашел pdfsandwich , с которым у меня были очень хорошие результаты, и я удивлен, что он до сих пор не упоминается подробно в ответах.
Дополнительная информация доступна здесь: http://www.tobias-elze.de/pdfsandwich/
Он использует спонсируемую Google tesseract библиотеку оптического распознавания символов за кулисами, но упрощает этапы обработки и создания PDF.
По состоянию на декабрь 2020 года он включен в официальные репозитории Ubuntu. Для установки:
sudo apt update && sudo apt install pdfsandwich
Для обработки PDF-файла с именем input.pdf:
pdfsandwich input.pdf
По умолчанию ваш вывод будет выглядеть примерно так: input_ocr.pdf
В Ubuntu 20.04 это не изначально не работает из-за проблемы с правами доступа Ghostscript. Это можно обойти, добавив XML-комментарии () вокруг следующих строк в /etc/ImageMagick-6/policy.xml (в моем файл, это были строки 90–95):
<policy domain="coder" rights="none" pattern="PS" />
<policy domain="coder" rights="none" pattern="PS2" />
<policy domain="coder" rights="none" pattern="PS3" />
<policy domain="coder" rights="none" pattern="EPS" />
<policy domain="coder" rights="none" pattern="PDF" />
<policy domain="coder" rights="none" pattern="XPS" />
Ссылка на это исправление: https://www.itechlounge.net/2020/09/web-imagickexception-attempt-to-perform-an-operation-not -разрешено-политикой-безопасности-pdf/
Чтобы прочитать документацию:
man pdfsandwich