пакетное преобразование тессеракта

Question 1

Я пытаюсь распознать книгу, используя тессеракт, однако я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как мне это сделать

Я попробовал тессеракт * .tif *, который дает мне этот read_params_file: параметр не найден: II *

Question 2

Чтобы избежать перезаписи выходного файла для каждой новой страницы, я сделал:

for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done

Он работал нормально.

(я нашел это решение здесь .)

Question 3

Question 4

Вы можете использовать VietOCR , который использует Tesseract и поддерживает пакетное / массовое распознавание текста.

Question 5

Я попробовал это, и это работает

for i in *.tif ; do tesseract $i outtext;  done;

Убедитесь, что когда вы находитесь в терминале, вы меняете каталог на расположение всех файлов TIF.

Question 6

Я хотел конвертировать каннада (индийский язык) в PDF с возможностью поиска

Я изменил это для я в *tif; do b=базовое имя "$i" .tif; tesseract "$i" "$b" hocr; сделано

КАК НИЖЕ

для i в *tif; do b=базовое имя "$i" .tif; tesseract -l kan "$i" "$b" pdf; done

Это сработало хорошо, вся папка была преобразована из изображения в pdf с возможностью поиска. Тнакё

karkaf · Answer 1 · 25 March 2013 в 16:17