Как создать высокое качество PDFs с copyable текстом от сканирований?

Некоторые компании предоставляют программное обеспечение для Windows с их сканерами*, который может создать PDFs из отсканированных страниц, которые точно походят на просканированный материал (как будто это были просто полностраничные изображения), но текст распознан и copyable.

Как я могу создать PDFs как это на Ubuntu?

Обратите внимание, что я не хочу преобразовывать просканированный текст в обычный текст. Я хотел бы сохранить получающийся PDF, выглядящий идеальным для изображения как исходные страницы, но добавить слой распознанного текста по нему для простоты использования.

У меня есть рабочий сканер с высоким разрешением, который я в настоящее время использую с XSane. Это сканирует прекрасные страницы и создает красивый, изображения высокого DPI.

* а именно, Canon с LiDE 220

3
задан 24 September 2017 в 14:16

1 ответ

Преамбула

Вы ищете тестовую систему PDF, т.е. просканированный PDF с невидимым слоем текста (или слой текста, который просто помещается позади изображения каждой страницы).

Существует несколько способов создать тот. Я буду использовать бумажные Подходы Взвешивания Термина в Автоматическом Текстовом информационном поиске как пример документа, для которого нужен OCR.

pdfsandwich команда

В первую очередь, установите этот инструмент из репозиториев:

sudo apt install pdfsandwich

Затем можно просто выполнить его на файле PDF и ожидать:

pdfsandwich document.pdf

Screenshot of Evince showing a PDF sandwich

В прошлом этот метод не был очень точен, особенно w.r.t. текстовое расположение. Кажется, что теперь вещи стали намного лучше. Пример от PDF:

Краткий обзор – экспериментальные данные, накопленные за прошлые 20 лет, указывают на это

Если Вы выделяетесь, текст в Проявляют, черные квадраты показывают.

Средство просмотра PDF-XChange

Это - бесплатное программное обеспечение, программа только для Windows, которая работает отлично под Вином, если Вы используете 32-разрядную версию в 32-разрядном Винном префиксе. Для этого я предлагаю использовать PlayOnLinux, потому что очень легко выбрать последнюю Винную версию и то, что Вы хотите 32-разрядный префикс.

После того, как установленный, можно выполнить его и выбрать значок OCR на панели инструментов:

Screenshot of PDF-XChange Viewer under Wine

Вывод обычно очень хорош, и текстовое размещение точно. Пример от PDF:

Краткий обзор - экспериментальные данные, накопленные за прошлые 20 лет, указывают на это

Если Вы выделяетесь, текст в Проявляют, текст показывают в шрифте гротескового шрифта.

OCR.space

Это - на самом деле веб-сервис. Перейдите к ocr.space и выберите свой файл и язык, затем проверьте опцию "Create searchable PDF with invisible text layer". Нажмите кнопку и ожидайте, пока документ не загружается и преобразовывается.

К сожалению, существует ошибка для горизонтальных страниц, и они не становятся представленными правильно в выводе. Я уведомил авторов относительно этого, и они подтвердили проблему.

3
ответ дан 1 December 2019 в 16:19

Другие вопросы по тегам:

Похожие вопросы: