Как мне создать многостраничный сэндвич pdf с hocr2pdf?

Я использовал tesseract для создания специального html для использования с hocr2pdf, начиная с muti-page tif.

Я попытался использовать hoc2pdf для создания «сэндвича pdf» (изображение + слой скрытого текста).

Hocr2pdf создает одностраничный PDF со всеми наложенными страницами.

Есть ли способ решить эту проблему или альтернативное решение?

6
задан 22 March 2013 в 22:19

1 ответ

Я нашел решение этой проблемы. Hocr2pdf имеет проблемы с производством многостраничных PDF-файлов, поэтому я создал одностраничные tif-файлы, запустил tesseract-ocr, запустил hocr2pdf, а затем соединил результаты со следующим сценарием:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html
0
ответ дан 22 March 2013 в 22:19

Другие вопросы по тегам:

Похожие вопросы: