Как я могу извлечь текст из изображений?

Question 1

Я не говорю о просканированных файлах, но изображениях разнообразия сада, такой как тогда, когда Вы делаете снимок высокого определения доски в классе, и он приятно написан от руки; или когда Вы фотографируете страницу из книги рецепта и хотите рецепт в текстовом формате.

Какое-либо бесплатное и открытое программное обеспечение для этого?

Я попробовал tesseract, и результаты были ужасны.

Question 2

Действие извлечения текста из изображений называют OCR и Ubuntu выделили страницу Wiki OCR. От той страницы:

Доступные инструменты OCR

Репозитории Вселенной Ubuntu содержат следующие инструменты OCR:

gocr - Командная строка OCR
fuzzyocr - плагин spamassassin для проверки вложений изображения
libhocr0 - Еврейский OCR
ocrad - Программа оптического распознавания символов
ocrfeeder - Анализ макета документа и система оптического распознавания символов
ocropus - анализ документа и Система оптического распознавания
tesseract-ocr

Мультивселенная Ubuntu respositories также содержит:

клинообразный знак - многоязычная Система оптического распознавания

Некоторые пакеты устарели, но неофициальные новые могут быть найдены в PPA Alex_P (код добавления PPA: ppa:alex-p/notesalexp). Если Вы никогда не использовали проверку PPA, как добавить программное обеспечение от PPA.

править: Как показано в комментарии Clara OCR существует также, но он застрял в Hardy, и их веб-сайт имеет 2009 как последнее обновление.

Question 3

Question 4

tesseract-ocr был бы большой по сравнению со всеми другой. Для Установки, команды выполнения sudo apt-get install tesseract-ocr.

Использование tesseract filename.jpg output.txt.

Выше команды генерирует output.txt.

Вы могли бы рассмотреть выбор соответствующего языка. В этом случае необходимо будет установить tesseract-ocr-LANG пакет, где LANG трехбуквенный код языка ISO 639-2. Прямо сейчас у Вас есть 123 языка на 18.04 repo. Затем используйте, например:

tesseract mySpanishText.jpg output -l spa

Rinzwind · Accepted Answer · 23 November 2019 в 01:19

Действие извлечения текста из изображений называют OCR и Ubuntu выделили страницу Wiki OCR. От той страницы:

Доступные инструменты OCR

Репозитории Вселенной Ubuntu содержат следующие инструменты OCR:

gocr - Командная строка OCR
fuzzyocr - плагин spamassassin для проверки вложений изображения
libhocr0 - Еврейский OCR
ocrad - Программа оптического распознавания символов
ocrfeeder - Анализ макета документа и система оптического распознавания символов
ocropus - анализ документа и Система оптического распознавания
tesseract-ocr

Мультивселенная Ubuntu respositories также содержит:

клинообразный знак - многоязычная Система оптического распознавания

Некоторые пакеты устарели, но неофициальные новые могут быть найдены в PPA Alex_P (код добавления PPA: ppa:alex-p/notesalexp). Если Вы никогда не использовали проверку PPA, как добавить программное обеспечение от PPA.

править: Как показано в комментарии Clara OCR существует также, но он застрял в Hardy, и их веб-сайт имеет 2009 как последнее обновление.

Pablo A · Answer 2 · 23 November 2019 в 01:19

tesseract-ocr был бы большой по сравнению со всеми другой. Для Установки, команды выполнения sudo apt-get install tesseract-ocr.

Использование tesseract filename.jpg output.txt.

Выше команды генерирует output.txt.

Вы могли бы рассмотреть выбор соответствующего языка. В этом случае необходимо будет установить tesseract-ocr-LANG пакет, где LANG трехбуквенный код языка ISO 639-2. Прямо сейчас у Вас есть 123 языка на 18.04 repo. Затем используйте, например:

tesseract mySpanishText.jpg output -l spa

Как я могу извлечь текст из изображений?

2 ответа

Другие вопросы по тегам:

Похожие вопросы: