Как извлечь определенные строки из гиперссылки и создать папку с той же строкой в ​​bash?

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

1
задан 4 July 2016 в 19:47

1 ответ

[F1]
4
ответ дан 23 May 2018 в 08:32

Другие вопросы по тегам:

Похожие вопросы: