Как я могу извлечь текст из изображений?
Я не говорю о просканированных файлах, но изображениях разнообразия сада, такой как тогда, когда Вы делаете снимок высокого определения доски в классе, и он приятно написан от руки; или когда Вы фотографируете страницу из книги рецепта и хотите рецепт в текстовом формате.
Какое-либо бесплатное и открытое программное обеспечение для этого?
Я попробовал tesseract, и результаты были ужасны.
Действие извлечения текста из изображений называют OCR
и Ubuntu выделили страницу Wiki OCR. От той страницы:
Доступные инструменты OCR
Репозитории Вселенной Ubuntu содержат следующие инструменты OCR:
Мультивселенная Ubuntu respositories также содержит:
Некоторые пакеты устарели, но неофициальные новые могут быть найдены в PPA Alex_P (код добавления PPA: ppa:alex-p/notesalexp). Если Вы никогда не использовали проверку PPA, как добавить программное обеспечение от PPA.
править: Как показано в комментарии Clara OCR существует также, но он застрял в Hardy, и их веб-сайт имеет 2009 как последнее обновление.
tesseract-ocr
был бы большой по сравнению со всеми другой. Для Установки, команды выполнения sudo apt-get install tesseract-ocr
.
Использование tesseract filename.jpg output.txt
.
Выше команды генерирует output.txt
.
Вы могли бы рассмотреть выбор соответствующего языка. В этом случае необходимо будет установить tesseract-ocr-LANG
пакет, где LANG
трехбуквенный код языка ISO 639-2. Прямо сейчас у Вас есть 123 языка на 18.04 repo. Затем используйте, например:
tesseract mySpanishText.jpg output -l spa