Tesseract теперь создает файл .hocr, а не файл .html для вывода ocr, но это не совсем то, что здесь обсуждается. Когда hocr2pdf использует этот вывод, он использует большой размер текста с небольшими ограничивающими рамками после обновления. Большая часть текста даже не появляется в полученном PDF, и то, что появляется в небольшом количестве текста, не читается и не выбирается.
Я использую скрипт, который просматривает каждый файл .tif в каталоге и делает ocr для каждого. Я использую цикл for следующим образом:
for page in "$dir"/*page*.tif
do
base="${page%.tif}"
tesseract "$page" "$base" -l eng hocr
hocr2pdf -i "$page" -o "$base.pdf" < "$base.hocr"
done
Я также попытался указать разрешение с помощью переключателя -r 400
на hocr2pdf, но это не привело к каким-либо изменениям. Я могу только предположить, что текущая версия tesseract не выдает соответствующий вывод для hocr2pdf для работы.
Tesseract - мой единственный вариант ocr, потому что он очень хорошо обрабатывает исландский и древнескандинавский языки, поэтому переход на другой инструмент ocr, вероятно, невозможен.
Одно возможное решение состоит в том, чтобы запросить вывод PDF непосредственно от tesseract. Это, кажется, предоставляет лучшие результаты мне, чем прохождение через hocr2pdf.
tesseract "$page" "$base" -l eng pdf
или
tesseract "$page" "$base" -l eng -c tessedit_create_pdf=1