У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.
Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в SynapticИспользование Tesseract
У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.
a) преобразовать все файлы изображений в текст
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt
a) преобразовать все файлы изображений в текст
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
ВАРИАНТ 2 - с помощью GUI
a) Установите gImageReader и используйте его
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip
Распакуйте файлы и откройте VietOCR.jar с помощью Java:
Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.