Почему текст OCR распознан с пробелами после каждого символа?

Я пытаюсь получить все свои отсканированные документы и выбросить те противные бумаги. Для упрощения этого процесса, я недавно купил сканер ADS-2100e Брата. Я думал, что этот сканер мог создать OCR-PDF на Карте с интерфейсом USB, но я неправ. PDFs на USB не доступны для поиска. Таким образом, я пытаюсь добавить OCR впоследствии с pdfsandwich. Это работало, но мое СРЕДСТВО ПРОСМОТРА PDF (Проявляют, Ubuntu 16.04.2) не могло найти отдельное слово. Каждое слово получило пробелы после каждого символа. Я выбираю право tesseract-language-pack, но "пробельная проблема" не уйдет.

Пример: слово "Guten" могло только быть найдено с "G u t e n" и так далее.

Я пытался искать этот единственный Файл PDF с PDF-XChange-Viewer в Windows 10, и все хорошо работает. Никакие пробелы после каждого символа.

Я попробовал другие СРЕДСТВА ПРОСМОТРА PDF и Средства поиска на Ubuntu (recoll, pdfgrep, qpdfview, Okular). Каждый инструмент только показывает мне те пробелы.Я могу что-нибудь сделать?

В большинстве случаев мне только нужны некоторые слова из файла PDF для нахождения его с recoll, но с пробелами я не возможен найти любого из них.

Я не думаю, что tesseract является моей проблемой. Кажется, что PDFViewers и Search-Tools заставили проблему читать текст OCR.

Эта проблема уже обсуждена здесь:

https://bugs.ghostscript.com/show_bug.cgi? id=696116

Я мог решить свою проблему с небольшим обходным решением:

Я не создаю файлы PDF на Карте с интерфейсом USB, но файлах JPEG. Те JPEGS могли легко преобразованный в доступные для поиска файлы PDF с:

tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf

Теперь я получил свои доступные для поиска файлы PDF, но свою первую проблему ist не решенный все же.

1
задан 17 March 2017 в 22:40

0 ответов

Другие вопросы по тегам:

Похожие вопросы: