Некоторые компании предоставляют программное обеспечение для Windows с их сканерами*, который может создать PDFs из отсканированных страниц, которые точно походят на просканированный материал (как будто это были просто полностраничные изображения), но текст распознан и copyable.
Как я могу создать PDFs как это на Ubuntu?
Обратите внимание, что я не хочу преобразовывать просканированный текст в обычный текст. Я хотел бы сохранить получающийся PDF, выглядящий идеальным для изображения как исходные страницы, но добавить слой распознанного текста по нему для простоты использования.
У меня есть рабочий сканер с высоким разрешением, который я в настоящее время использую с XSane. Это сканирует прекрасные страницы и создает красивый, изображения высокого DPI.
* а именно, Canon с LiDE 220
Вы ищете тестовую систему PDF, т.е. просканированный PDF с невидимым слоем текста (или слой текста, который просто помещается позади изображения каждой страницы).
Существует несколько способов создать тот. Я буду использовать бумажные Подходы Взвешивания Термина в Автоматическом Текстовом информационном поиске как пример документа, для которого нужен OCR.
pdfsandwich
командаВ первую очередь, установите этот инструмент из репозиториев:
sudo apt install pdfsandwich
Затем можно просто выполнить его на файле PDF и ожидать:
pdfsandwich document.pdf
В прошлом этот метод не был очень точен, особенно w.r.t. текстовое расположение. Кажется, что теперь вещи стали намного лучше. Пример от PDF:
Краткий обзор – экспериментальные данные, накопленные за прошлые 20 лет, указывают на это
Если Вы выделяетесь, текст в Проявляют, черные квадраты показывают.
Это - бесплатное программное обеспечение, программа только для Windows, которая работает отлично под Вином, если Вы используете 32-разрядную версию в 32-разрядном Винном префиксе. Для этого я предлагаю использовать PlayOnLinux, потому что очень легко выбрать последнюю Винную версию и то, что Вы хотите 32-разрядный префикс.
После того, как установленный, можно выполнить его и выбрать значок OCR на панели инструментов:
Вывод обычно очень хорош, и текстовое размещение точно. Пример от PDF:
Краткий обзор - экспериментальные данные, накопленные за прошлые 20 лет, указывают на это
Если Вы выделяетесь, текст в Проявляют, текст показывают в шрифте гротескового шрифта.
Это - на самом деле веб-сервис. Перейдите к ocr.space и выберите свой файл и язык, затем проверьте опцию "Create searchable PDF with invisible text layer". Нажмите кнопку и ожидайте, пока документ не загружается и преобразовывается.
К сожалению, существует ошибка для горизонтальных страниц, и они не становятся представленными правильно в выводе. Я уведомил авторов относительно этого, и они подтвердили проблему.