Как я могу извлечь текст из изображений?

Как я могу извлечь текст из изображений?

Я не говорю о просканированных файлах, но изображениях разнообразия сада, такой как тогда, когда Вы делаете снимок высокого определения доски в классе, и он приятно написан от руки; или когда Вы фотографируете страницу из книги рецепта и хотите рецепт в текстовом формате.

Какое-либо бесплатное и открытое программное обеспечение для этого?

Я попробовал tesseract, и результаты были ужасны.

24
задан 31 August 2011 в 03:38

2 ответа

Действие извлечения текста из изображений называют OCR и Ubuntu выделили страницу Wiki OCR. От той страницы:

Доступные инструменты OCR

Репозитории Вселенной Ubuntu содержат следующие инструменты OCR:

  1. gocr - Командная строка OCR
  2. fuzzyocr - плагин spamassassin для проверки вложений изображения
  3. libhocr0 - Еврейский OCR
  4. ocrad - Программа оптического распознавания символов
  5. ocrfeeder - Анализ макета документа и система оптического распознавания символов
  6. ocropus - анализ документа и Система оптического распознавания
  7. tesseract-ocr

Мультивселенная Ubuntu respositories также содержит:

  1. клинообразный знак - многоязычная Система оптического распознавания

Некоторые пакеты устарели, но неофициальные новые могут быть найдены в PPA Alex_P (код добавления PPA: ppa:alex-p/notesalexp). Если Вы никогда не использовали проверку PPA, как добавить программное обеспечение от PPA.

править: Как показано в комментарии Clara OCR существует также, но он застрял в Hardy, и их веб-сайт имеет 2009 как последнее обновление.

26
ответ дан 23 November 2019 в 01:19

tesseract-ocr был бы большой по сравнению со всеми другой. Для Установки, команды выполнения sudo apt-get install tesseract-ocr.

Использование tesseract filename.jpg output.txt.

Выше команды генерирует output.txt.

Вы могли бы рассмотреть выбор соответствующего языка. В этом случае необходимо будет установить tesseract-ocr-LANG пакет, где LANG трехбуквенный код языка ISO 639-2. Прямо сейчас у Вас есть 123 языка на 18.04 repo. Затем используйте, например:

tesseract mySpanishText.jpg output -l spa
18
ответ дан 23 November 2019 в 01:19

Другие вопросы по тегам:

Похожие вопросы: