Как предотвратить использование hocr2pdf большого шрифта из файла .hocr, сгенерированного tesseract?

Tesseract теперь создает файл .hocr, а не файл .html для вывода ocr, но это не совсем то, что здесь обсуждается. Когда hocr2pdf использует этот вывод, он использует большой размер текста с небольшими ограничивающими рамками после обновления. Большая часть текста даже не появляется в полученном PDF, и то, что появляется в небольшом количестве текста, не читается и не выбирается.

Я использую скрипт, который просматривает каждый файл .tif в каталоге и делает ocr для каждого. Я использую цикл for следующим образом:

for page in "$dir"/*page*.tif
do
    base="${page%.tif}"
    tesseract "$page" "$base" -l eng hocr
    hocr2pdf -i "$page" -o "$base.pdf" < "$base.hocr"
done

Я также попытался указать разрешение с помощью переключателя -r 400 на hocr2pdf, но это не привело к каким-либо изменениям. Я могу только предположить, что текущая версия tesseract не выдает соответствующий вывод для hocr2pdf для работы.

Tesseract - мой единственный вариант ocr, потому что он очень хорошо обрабатывает исландский и древнескандинавский языки, поэтому переход на другой инструмент ocr, вероятно, невозможен.

4
задан 8 February 2016 в 16:51

1 ответ

Одно возможное решение состоит в том, чтобы запросить вывод PDF непосредственно от tesseract. Это, кажется, предоставляет лучшие результаты мне, чем прохождение через hocr2pdf.

tesseract "$page" "$base" -l eng pdf

или

tesseract "$page" "$base" -l eng -c tessedit_create_pdf=1
1
ответ дан 8 February 2016 в 16:51

Другие вопросы по тегам:

Похожие вопросы: