Рекомендации по программному обеспечению для оптического распознавания символов?

Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы из их бумажных версий, но текст в электронных книгах / бумагах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.

Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если они лучше для Windows, пожалуйста, дайте мне знать.

Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.

Спасибо и всего наилучшего!

Пожалуйста, ограничьте одно программное обеспечение для ответа

15
задан 13 January 2011 в 01:47

10 ответов

Tesseract OCR Install Tesseract OCR

Оригинальный движок был разработан еще в конце 80-х годов HP и IBM, но доказал, что он один из лучших программ для распознавания глаз, которые я использовал. Недавно он подвергся множеству обновлений для движка и стал одним из наиболее полных инструментов OCR на рынке. Превосходя по сравнению с большинством других инструментов распознавания (с чем-то в более высоком 90-процентном сопоставлении текста), он может легко преобразовать стандартный тип документа лицом к тексту.

Ниже приведен пример:

tesseract ScannedDocument.png out

Будет создан файл с именем out.txt

.
0
ответ дан 13 January 2011 в 01:47

Свободное решение существует в репозиториях, CunieForm YAGF в качестве внешнего интерфейса Gnome)

0
ответ дан 13 January 2011 в 01:47

Похоже, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию, чтобы знать, где был найден текст.

0
ответ дан 13 January 2011 в 01:47

Adobe Acrobat (не читатель, не бесплатное приложение) способен распознавать отсканированный документ PDF и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбирать и копировать. К сожалению, мне не очень удобно проверять, где именно находится эта функция в пользовательском интерфейсе Acrobat, но я успешно использовал ее пару раз для той же цели, о которой вы упоминали.

И да, это программное обеспечение Windows, а не Linux, но согласно базе данных приложения Wine HQ, оно работает под Wine .

0
ответ дан 13 January 2011 в 01:47

Лучшее программное обеспечение для оптического распознавания текста обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880, установленный в моем офисе, может выводить отличные файлы OCR с поддержкой PDF быстрее и проще, чем любая известная мне настольная программа. Положите книгу в лоток (без привязки), выберите свой почтовый адрес, нажмите зеленую кнопку.

Большинство PDF-файлов OCR, которые вы можете найти в сети, относятся к аналогичным машинам. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).

0
ответ дан 13 January 2011 в 01:47

Еще один проект, который должен быть в состоянии это сделать, - gscan2pdf

sudo apt-get install gscan2pdf

В этом проекте также можно использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.

0
ответ дан 13 January 2011 в 01:47

Ricoh Innovations предлагает мое любимое бесплатное онлайн-программное обеспечение для распознавания текста. Это бета-программа, но я считаю, что она работает довольно хорошо. Проверьте это по адресу: http://beta.rii.ricoh.com/betalabs/content/document-conversion

0
ответ дан 13 January 2011 в 01:47

Я не знаю ни одного OCR для Ubuntu, но для Windows есть тот, который имеет необходимые вам функции. То есть ABBYY FineReader это страница , но она не бесплатна

0
ответ дан 13 January 2011 в 01:47

FineReader также имеет онлайн-версию. Он утверждает, что может обрабатывать PDF-файлы в качестве формата ввода --- http://finereader.abbyyonline.com/en/Help/Faq/

0
ответ дан 13 January 2011 в 01:47

OCRFeeder

Это приложение с графическим интерфейсом.

enter image description here

Он использует tesseract-ocr или ocrad в качестве механизма распознавания.

Может быть установлен с Software Center или с

sudo apt-get install ocrfeeder
0
ответ дан 13 January 2011 в 01:47

Другие вопросы по тегам:

Похожие вопросы: