& ldquo; sh: 1: невозможно открыть /tmp/pdfsandwich4e375e.html: нет такого файла & rdquo; при использовании pdfsandwitch [закрыто]

Я попытался добавить текстовый слой в некоторые файлы PDF, чтобы сделать их доступными для поиска. Этот метод объясняется в немецкой вики Ubuntu: http://wiki.ubuntuusers.de/pdfsandwich. После установки зависимостей

sudo apt-get install imagemagick exactimage ghostscript tesseract-ocr

и pdfsandwich он должен быть таким же простым, как

pdfsandwich test.pdf

Однако я получаю:

Input file: "test.pdf"
Output file: "test_ocr.pdf"
Number of pages in inputfile: 272

Parallel processing with 8 threads started.
Processing page order may differ from original page order.

Processing page 137.
Processing page 171.
Processing page 1.
PProcessing page Processing pProcessing page rocess35.
age 239.
Processing page 69.
205.
ing page 103.
sh: 1: cannot open /tmp/pdfsandwich4e375e.html: No such file

, а затем еще много cannot open ... предупреждений. Проверка моего каталога /tmp показывает, что вместо этих *.html файлов существуют соответствующие файлы *.txt. Похоже, tesseract не выводится в формате hocr. Я прочитал man-страницы tesseract и попытался принудительно выполнить вывод hocr, создав конфигурационный файл с именем tesseract-config

hocr true

(я пробовал различные варианты) и начинал pdfsandwich с

pdfsandwich -tesso tesseract-config test.pdf

Но это ничего не меняет. Любые идеи о том, как я могу создавать pdf-файлы и получать правильный вывод?

Обратите внимание на связанные вопросы http://wiki.ubuntuusers.de/pdfsandwich и добавление информации OCR в PDF-файл. Однако мне нужно обработать много файлов PDF, и поэтому мне нужно решение из командной строки, которое я могу автоматизировать.

1
задан 13 April 2017 в 15:23

1 ответ

Причина этой ошибки заключается в том, что tesseract изменил свои расширения по умолчанию для hoc, что делает его несовместимым с pdfsandwich & lt; 0.1.0. Для tesseract 3.02 с pdfsandwich & lt; 0.1.0 он помогает модифицировать файл параметров tesseract и передавать его в pdfsandwich с помощью -tesso.

Tesseract 3.03, которая является версией по умолчанию tesseract в Ubuntu 14.04, по существу изменил его обработку hocr, делая его частично несовместимым с hocr2pdf, так что исправление «-tesso» часто приводит к текстовым слоям, которые не подходят для отсканированных изображений. Вместо этого вместо hocr2pdf, но сам tesseract необходимо использовать для создания каждой отдельной страницы pdf-файлов.

Pdfsandwich> = 0.1.0 автоматически распознает версию tesseract и выбирает соответствующий способ взаимодействия с tesseract, так что все эти ошибки больше не встречаются.

1
ответ дан 24 May 2018 в 21:00

Другие вопросы по тегам:

Похожие вопросы: