Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы из их бумажных версий, но текст в электронных книгах / бумагах может быть удивительным образом скопирован. Я полагаю, что версии с прямым сканированием должны были обрабатываться каким-либо программным обеспечением для оптического распознавания символов.
Итак, я хотел бы знать, каковы рекомендуемые программы для оптического распознавания символов? Особенно те, что для Ubuntu или бесплатно? Если они лучше для Windows, пожалуйста, дайте мне знать.
Меня особенно интересуют те OCR, которые могут принимать отсканированный PDF-файл в качестве входных данных и по-прежнему создавать в качестве выходных данных другой PDF-файл, который выглядит так же, как входной, но с копируемым текстом.
Спасибо и всего наилучшего!
Пожалуйста, ограничьте одно программное обеспечение для ответа
Оригинальный движок был разработан еще в конце 80-х годов HP и IBM, но доказал, что он один из лучших программ для распознавания глаз, которые я использовал. Недавно он подвергся множеству обновлений для движка и стал одним из наиболее полных инструментов OCR на рынке. Превосходя по сравнению с большинством других инструментов распознавания (с чем-то в более высоком 90-процентном сопоставлении текста), он может легко преобразовать стандартный тип документа лицом к тексту.
Ниже приведен пример:
tesseract ScannedDocument.png out
Будет создан файл с именем out.txt
.Свободное решение существует в репозиториях, CunieForm (и YAGF в качестве внешнего интерфейса Gnome)
Похоже, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию, чтобы знать, где был найден текст.
Adobe Acrobat (не читатель, не бесплатное приложение) способен распознавать отсканированный документ PDF и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбирать и копировать. К сожалению, мне не очень удобно проверять, где именно находится эта функция в пользовательском интерфейсе Acrobat, но я успешно использовал ее пару раз для той же цели, о которой вы упоминали.
И да, это программное обеспечение Windows, а не Linux, но согласно базе данных приложения Wine HQ, оно работает под Wine .
Лучшее программное обеспечение для оптического распознавания текста обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880, установленный в моем офисе, может выводить отличные файлы OCR с поддержкой PDF быстрее и проще, чем любая известная мне настольная программа. Положите книгу в лоток (без привязки), выберите свой почтовый адрес, нажмите зеленую кнопку.
Большинство PDF-файлов OCR, которые вы можете найти в сети, относятся к аналогичным машинам. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).
Еще один проект, который должен быть в состоянии это сделать, - gscan2pdf
sudo apt-get install gscan2pdf
В этом проекте также можно использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.
Ricoh Innovations предлагает мое любимое бесплатное онлайн-программное обеспечение для распознавания текста. Это бета-программа, но я считаю, что она работает довольно хорошо. Проверьте это по адресу: http://beta.rii.ricoh.com/betalabs/content/document-conversion
Я не знаю ни одного OCR для Ubuntu, но для Windows есть тот, который имеет необходимые вам функции. То есть ABBYY FineReader это страница , но она не бесплатна
FineReader также имеет онлайн-версию. Он утверждает, что может обрабатывать PDF-файлы в качестве формата ввода --- http://finereader.abbyyonline.com/en/Help/Faq/
OCRFeeder
Это приложение с графическим интерфейсом.
Он использует tesseract-ocr или ocrad в качестве механизма распознавания.
Может быть установлен с Software Center или с
sudo apt-get install ocrfeeder