Я использовал tesseract для создания специального html для использования с hocr2pdf, начиная с muti-page tif.
Я попытался использовать hoc2pdf для создания «сэндвича pdf» (изображение + слой скрытого текста).
Hocr2pdf создает одностраничный PDF со всеми наложенными страницами.
Есть ли способ решить эту проблему или альтернативное решение?
Я нашел решение этой проблемы. Hocr2pdf имеет проблемы с производством многостраничных PDF-файлов, поэтому я создал одностраничные tif-файлы, запустил tesseract-ocr, запустил hocr2pdf, а затем соединил результаты со следующим сценарием:
for f in ./*.tif; do
tesseract "$f" "$f" -l fra hocr
hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html