Я пытаюсь использовать лучшую модель от tesseract. Однако я получаю следующую ошибку:
tesseract sample.jpg stdout --tessdata-dir tessdata/
Error opening data file tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
Вот структура папок:.
├── sample.jpg
└── tessdata
└── eng.traineddata
Ubuntu Version:
Distributor ID: Ubuntu
Description: Ubuntu 18.04.1 LTS
Release: 18.04
Codename: bionic
tesseract version:
tesseract 4.0.0-beta.1
leptonica-1.75.3
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Вы, кажется, не установили TESSDATA_PREFIX
переменная. Отредактируйте ~/.bashrc с любым текстовым редактором, например. nano ~/.bashrc'
и добавьте строку export TESSDATA_PREFIX='<absolute path to tessdata>'
где я предполагаю, что tessdata относится к папке, Вы упомянули.
Действительно работать source ~/.bashrc
после того как Вы сделаны, редактируя и сохранили .bashrc. Надежда, которая помогает!
У меня была та же проблема, я немного поискал решение, и оно выглядело сложным, но не всегда успешным - потом я понял, что проблема на самом деле довольно проста, быстрое решение было прямо здесь в том, что ошибка сообщение явно указывает, где файлы должны находиться в родительской папке tessdata.
Убедитесь, что переменная среды TESSDATA_PREFIX установлена в родительский каталог вашего каталога "tessdata"
Похоже, что файл конфигурации ожидает, что файлы будут на один уровень выше, поэтому в моем случае / usr / share / tesseract-ocr / 4.00 /
Путем копирования языковых файлов и данных обучения (в моем случае eng.traineddata и osd.traineddata) в папку tessdata /usr/share/tesseract-ocr/4.00/tessdata в папку родительская папка на один уровень выше
После этого у тессеракта больше не было проблем
Это были правильные места для установки Ubuntu 19.10