пакетное преобразование тессеракта

Я пытаюсь распознать книгу, используя тессеракт, однако я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как мне это сделать

Я попробовал тессеракт * .tif *, который дает мне этот read_params_file: параметр не найден: II *

0
задан 25 March 2013 в 16:17

4 ответа

Чтобы избежать перезаписи выходного файла для каждой новой страницы, я сделал:

for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done 

Он работал нормально.

(я нашел это решение здесь .)

0
ответ дан 25 March 2013 в 16:17

Вы можете использовать VietOCR , который использует Tesseract и поддерживает пакетное / массовое распознавание текста.

0
ответ дан 25 March 2013 в 16:17

Я попробовал это, и это работает

for i in *.tif ; do tesseract $i outtext;  done;

Убедитесь, что когда вы находитесь в терминале, вы меняете каталог на расположение всех файлов TIF.

0
ответ дан 25 March 2013 в 16:17

Я хотел конвертировать каннада (индийский язык) в PDF с возможностью поиска

Я изменил это для я в *tif; do b=базовое имя "$i" .tif; tesseract "$i" "$b" hocr; сделано

КАК НИЖЕ

для i в *tif; do b=базовое имя "$i" .tif; tesseract -l kan "$i" "$b" pdf; done

Это сработало хорошо, вся папка была преобразована из изображения в pdf с возможностью поиска. Тнакё

-1
ответ дан 19 October 2020 в 09:30

Другие вопросы по тегам:

Похожие вопросы: