Я пытаюсь обучить Tesseract в Ubuntu 20.04.1 LTS. Я загрузил tesseract и необходимые инструменты для обучения.
Для обучающих данных я использую jTessBoxEditor. У меня есть файлы .tiff, но я не могу создать файлы .box. Когда я набираю в своем терминале следующее:
tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox
, я получаю следующую ошибку:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
Я попытался загрузить eng.traineddata из git и вставить его в tessdata, но у меня такое же сообщение об ошибке. Затем я несколько раз изменил TESSDATA_PREFIX, чтобы он указывал на tessdata, но я снова получил то же сообщение об ошибке. Как мне решить эту проблему?
Изменить: Исполняемый файл tesseract и исходный код tesseract, который я скачал, находятся в разных местах.
Я загрузил tesseract в двух местах. В месте, на которое указывал TESSDATA_PREFIX, не было eng.traineddata. Я загрузил его в этот каталог с github и снова использовал cat >> .pam_environment
, чтобы сделать точку TESSDATA_PREFIX это место.
Я снова вошел в систему и теперь могу создавать файлы .box.