Я ищу программное обеспечение, которое распознает текст внутри изображений. Я опробовал все упомянутые здесь инструменты (gocr, fuzzyocr, libhocr0, ocrad, ocrfeeder, ocropus, tesseract-ocr, клинопись). Мой вклад был фотографией печатного документа, а потому не рукописным, а только печатными буквами. Из всех инструментов tesseract-ocr является наиболее точным в моих тестах, но он все еще содержит много ошибок. Следовательно, сканирование документа в некоторый файл изображения, а затем продолжение с его индексированием или выполнение некоторых НЛП, к сожалению, это не какой-либо вариант.
Итак, учитывая возраст вышеупомянутой публикации, есть ли какие-либо лучшие инструменты для извлечения текста из изображений или фотографий?
EDIT 1:
С «изображением, содержащим текст», я имею в виду, что у меня есть файл PNG / JPG / BMP в качестве источника и что я хочу извлечь пикселированный текст внутри него и получить текст ASCII / UTF-8 в качестве результата и вывода .