У меня много изображений, и я хочу отсканировать эти изображения и получить вывод в виде файла MS Word, который можно отредактировать позже. Для Windows у меня есть Abbyy, отличный читатель. Но я не хочу возвращаться в Windows. Скажите, пожалуйста, есть ли приложение, которое может сделать то же самое для меня. Пожалуйста, помогите мне в этом.
Вы можете использовать Abbyy OCR.
CLI ABBYY FineReader Engine для Linux - это готовый инструмент CLI, основанный на передовых технологиях оптического распознавания символов (OCR) ABBYY. Инструмент автоматизирует OCR и преобразование документов в системах Linux.
blockquote>Для получения дополнительной информации и загрузки ее посетите веб-сайт .
Источник: Ocr4Linux SUP>
В первую очередь, вот еще некоторые инструменты OCR помимо ABBYY, которые имеют SDK, и можно использовать на Linux. Но обратите внимание, что не все они поддерживают вывод MS Word:
Вот является статья (с 2007, но вероятно все еще релевантный) сравнительным тестированием первых трех механизмов на точности и скорости: http://www.mathstat.dal.ca/~selinger/ocr-test/
Между прочим, все механизмы включая ABBYY являются лучшими для неструктурированного текста - другими словами, изображения, которые не следуют за регулярной структурой. Если "изображения", которые Вы обрабатываете, имеют стандартное расположение, например, формы, заполненные клиентами (где поля всегда находятся в том же месте), различные карты (такие как визитные карточки, удостоверения личности), и т.д., существуют специализированные решения, которые могут обнаружить и OCR, только определенные текстовые поля, "чистые", отображают "шум" и производят текст структурированным способом (например, Имя = John Smith, Идентификационный номер = 123456).
Если Ваши изображения ЯВЛЯЮТСЯ "шаблонами", и Вам нужен OCR, который может произвести структурированный текст, существует на самом деле очень немного решений Linux (насколько я знаю). Вот два решения, с которыми я знаком:
HTH, Dana