Я хотел бы просканировать хорошую сумму бумаг, у меня есть ложь вокруг с наименее возможной стычкой. Я хотел бы преобразовать их в изображения с помощью Простого Сканирования, затем преобразовал бы их в текст с помощью OCR. Существует ли хорошее приложение OCR с GUI, который даст мне хорошие результаты при нажатии кнопки?
GOCR из. Программа OCR (оптическое распознавание символов), которая преобразует отсканированные изображения текста обратно в текстовые файлы.
CLARA - еще один хороший графический вариант.
OCRAD from OCR может использоваться как отдельное консольное приложение или как бэкэнд к другим программам.
KOOKA from является приложением KDE, но работает отлично, в дополнение Вы должны установить такие программы OCR, как GOCR и OCRAD. После установки Kooka и программ OCR, Вы должны указать Kooka на место установки OCR, чтобы он смог преобразовать JPEG в текст.
OCRFeeder из. это система анализа макета документа и оптического распознавания символов.
Tesseract from Вы можете установить языковой пакет tesseract-ocr-eng из здесь .
Посмотрите на эту страницу .
Примечание:
Чтобы запустить tesseract и набрать следующий
tesseract imagefile.tif outputfile.txt
Tesseract может читать только TIFF-файл - если у вас есть JPEG или PDF или что-то еще, вам нужно будет его преобразовать. Кроме того, расширение имени файла должно быть .tif, а не .tiff, иначе будут выданы ошибки тессеракта.
linux-intelligent-ocr-solution
отказ от ответственности - я тесно связан с разработкой этого решения с открытым исходным кодом
Lios может преобразовывать печать в текст с помощью сканера или камеры.
Он также может создавать текст из отсканированных изображений из других источников, таких как PDF, изображение или папка, содержащая изображения.
Программа сделана полностью доступной для слабовидящих.
Поскольку я тесно связан, я хотел бы получить отзывы.
Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, есть ли у них графический интерфейс):
Tesseract ( ReadMe , FAQ ) (Python)
Также доступно для: Tesseract .NET , Tesseract iOS
Механизм распознавания текста, разработанный в HP. Лаборатории с 1985 по 1995 год ... а теперь в Google. Tesseract, вероятно, самый точный открытый исходный код Доступен механизм OCR.
Использование:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
Распознавание символов с открытым исходным кодом. Он конвертирует отсканированные изображения текста вернуться к текстовым файлам. GOCR можно использовать с разными интерфейсами, которые упрощает перенос на разные ОС и архитектуры. Оно может открывать множество различных форматов изображений, и их качество улучшается ежедневно.
OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)
Система распознавания текста с упором на использование крупномасштабное машинное обучение для решения проблем в документе анализ, включающий подключаемый анализ макета, подключаемое распознавание символов, статистическое моделирование естественного языка и многоязычные возможности.
Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительный распознаватель почерка, разработанный в середине 90-х и развернутый бюро переписи населения США, и новый высокопроизводительный макет методы анализа.
OCRopus разрабатывается при поддержке Google и изначально предназначен для высокопроизводительного преобразования больших объемов документов. Мы ожидаем, что это также будет отличная система распознавания текста для многих других
Tessnet2 (Открытый исходный код, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Tesseract - это движок OCR с открытым исходным кодом C ++. Tessnet2 - это сборка .NET которые предоставляют очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (например, tesseract), что означает, что вы можете использовать его как хотите, включенный в коммерческие продукты.
Некоторые другие: ABBYY CLI OCR для Linux , Asprise OCR
] Более полный список см. В: Список программ оптического распознавания символов в Википедии
См. Также: wanghaisheng / awesome-ocr
- тщательно подобранный список перспективных ресурсов OCR на GitHub.
gscan2pdf включает в себя 3 различных движка ocr. Вы можете сканировать прямо в программу или импортировать свой pdf в программу. Я обнаружил, что движок Tesseract отлично работает и очень прост в использовании
Распознавание текста в многостраничных PDF-файлах или отсканированных документах
Это, вероятно, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет не только сканировать файлы, но также импортировать файлы и выполнять для них распознавание текста. Установите gscan2pdf отсюда , из Центра программного обеспечения Ubuntu или запустите эту команду в терминале:
sudo apt-get install gscan2pdf
Gscan2PDF может использовать настраиваемые механизмы распознавания текста, по умолчанию tesseract-ocr
Вы можете рассмотреть возможность выбора соответствующего языка. В этом случае вам нужно будет установить пакет tesseract-ocr-LANG
, где LANG
- это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас 108 языков в репозитории 16.04.
Я только что добился успеха (до 16.04) с pdfocr.rb . Он указан на вики Ubuntu
Вот ppa , но репозиторий для 16.04 не обновляется. Приведенный выше скрипт ruby из github все еще работает с 16.04.
Вы можете скачать его с Github. Вам потребуется установить следующие пакеты:
ruby tesseract-ocr pdftk exactimage
затем сделать pdfocr.rb исполняемым и запустить:
./pdfocf.rb -i source.pdf -o output.pdf
При желании вы можете использовать параметр -l LANG
. В этом случае вам нужно будет установить пакет tesseract-ocr-LANG
, где LANG
- это трехбуквенный ISO 639-2 языковой код. Сейчас у вас 108 языков в репо 16.04.
Лучший и самый простой способ - использовать pypdfocr
, он не меняет pdf. pypdfocr - это ссылка на модуль Python здесь.
pypdfocr your_document.pdf
В конце у вас будет еще один your_document_ocr.pdf
в том виде, в каком вы хотите, с текстом с возможностью поиска. Приложение не меняет качество изображения. Немного увеличивает размер файла, добавляя наложенный текст.
Я думаю, что команда довольно проста и не требует графического интерфейса. Возможно, установка pypdfocr более подробна:
sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
больше не поддерживается с 2016 г., и я заметил некоторые проблемы из-за отсутствия наставничества. ocrmypdf
( модуль выполняет аналогичную работу и может использоваться следующим образом:
ocrmypdf in.pdf out.pdf
Для установки:
pip install ocrmypdf
или
apt install ocrmypdf
Просто потому, что он работает очень хорошо и обязательно должен быть в списке:
gimageReader
Пример из снимок экрана:
Он есть в репозиториях (ответ был дан 18.10, но уже давно его использую)