Abbyy прекрасный читатель, как приложение для Ubuntu 13.04

Question 1

У меня много изображений, и я хочу отсканировать эти изображения и получить вывод в виде файла MS Word, который можно отредактировать позже. Для Windows у меня есть Abbyy, отличный читатель. Но я не хочу возвращаться в Windows. Скажите, пожалуйста, есть ли приложение, которое может сделать то же самое для меня. Пожалуйста, помогите мне в этом.

Question 2

Вы можете использовать Abbyy OCR.

CLI ABBYY FineReader Engine для Linux - это готовый инструмент CLI, основанный на передовых технологиях оптического распознавания символов (OCR) ABBYY. Инструмент автоматизирует OCR и преобразование документов в системах Linux.

Для получения дополнительной информации и загрузки ее посетите веб-сайт .

^{Источник: Ocr4Linux}

Question 3

Question 4

В первую очередь, вот еще некоторые инструменты OCR помимо ABBYY, которые имеют SDK, и можно использовать на Linux. Но обратите внимание, что не все они поддерживают вывод MS Word:

Tesseract - текстовый вывод только
Ocrad - текстовый вывод только
GOCR - текстовый вывод только
CuneiForm - RTF производится
OmniPage - Google Docs и PDF производятся

Вот является статья (с 2007, но вероятно все еще релевантный) сравнительным тестированием первых трех механизмов на точности и скорости: http://www.mathstat.dal.ca/~selinger/ocr-test/

Между прочим, все механизмы включая ABBYY являются лучшими для неструктурированного текста - другими словами, изображения, которые не следуют за регулярной структурой. Если "изображения", которые Вы обрабатываете, имеют стандартное расположение, например, формы, заполненные клиентами (где поля всегда находятся в том же месте), различные карты (такие как визитные карточки, удостоверения личности), и т.д., существуют специализированные решения, которые могут обнаружить и OCR, только определенные текстовые поля, "чистые", отображают "шум" и производят текст структурированным способом (например, Имя = John Smith, Идентификационный номер = 123456).

Если Ваши изображения ЯВЛЯЮТСЯ "шаблонами", и Вам нужен OCR, который может произвести структурированный текст, существует на самом деле очень немного решений Linux (насколько я знаю). Вот два решения, с которыми я знаком:

CSSN OCR (http://www.card-reader.com). Специализируется на документах типа платы как удостоверения личности, водительские права, медицинские карты, банковские чеки, кредитные карты, и т.д. Работает на Linux с помощью ВИНА.
ARH (http://www.arhungary.hu). Способный прочитать проездные документы, паспорта, визу и удостоверения личности.

HTH, Dana

Mitch · Answer 1 · 19 May 2013 в 12:03

Вы можете использовать Abbyy OCR.

CLI ABBYY FineReader Engine для Linux - это готовый инструмент CLI, основанный на передовых технологиях оптического распознавания символов (OCR) ABBYY. Инструмент автоматизирует OCR и преобразование документов в системах Linux.

Для получения дополнительной информации и загрузки ее посетите веб-сайт .

^{Источник: Ocr4Linux}

Dana Brandt · Answer 2 · 19 May 2013 в 12:03

В первую очередь, вот еще некоторые инструменты OCR помимо ABBYY, которые имеют SDK, и можно использовать на Linux. Но обратите внимание, что не все они поддерживают вывод MS Word:

Tesseract - текстовый вывод только
Ocrad - текстовый вывод только
GOCR - текстовый вывод только
CuneiForm - RTF производится
OmniPage - Google Docs и PDF производятся

Вот является статья (с 2007, но вероятно все еще релевантный) сравнительным тестированием первых трех механизмов на точности и скорости: http://www.mathstat.dal.ca/~selinger/ocr-test/

Между прочим, все механизмы включая ABBYY являются лучшими для неструктурированного текста - другими словами, изображения, которые не следуют за регулярной структурой. Если "изображения", которые Вы обрабатываете, имеют стандартное расположение, например, формы, заполненные клиентами (где поля всегда находятся в том же месте), различные карты (такие как визитные карточки, удостоверения личности), и т.д., существуют специализированные решения, которые могут обнаружить и OCR, только определенные текстовые поля, "чистые", отображают "шум" и производят текст структурированным способом (например, Имя = John Smith, Идентификационный номер = 123456).

Если Ваши изображения ЯВЛЯЮТСЯ "шаблонами", и Вам нужен OCR, который может произвести структурированный текст, существует на самом деле очень немного решений Linux (насколько я знаю). Вот два решения, с которыми я знаком:

CSSN OCR (http://www.card-reader.com). Специализируется на документах типа платы как удостоверения личности, водительские права, медицинские карты, банковские чеки, кредитные карты, и т.д. Работает на Linux с помощью ВИНА.
ARH (http://www.arhungary.hu). Способный прочитать проездные документы, паспорта, визу и удостоверения личности.

HTH, Dana

Abbyy прекрасный читатель, как приложение для Ubuntu 13.04

2 ответа

Другие вопросы по тегам:

Похожие вопросы: