Я пытаюсь получить все свои отсканированные документы и выбросить те противные бумаги. Для упрощения этого процесса, я недавно купил сканер ADS-2100e Брата. Я думал, что этот сканер мог создать OCR-PDF на Карте с интерфейсом USB, но я неправ. PDFs на USB не доступны для поиска. Таким образом, я пытаюсь добавить OCR впоследствии с pdfsandwich. Это работало, но мое СРЕДСТВО ПРОСМОТРА PDF (Проявляют, Ubuntu 16.04.2) не могло найти отдельное слово. Каждое слово получило пробелы после каждого символа. Я выбираю право tesseract-language-pack, но "пробельная проблема" не уйдет.
Пример: слово "Guten" могло только быть найдено с "G u t e n" и так далее.
Я пытался искать этот единственный Файл PDF с PDF-XChange-Viewer в Windows 10, и все хорошо работает. Никакие пробелы после каждого символа.
Я попробовал другие СРЕДСТВА ПРОСМОТРА PDF и Средства поиска на Ubuntu (recoll, pdfgrep, qpdfview, Okular). Каждый инструмент только показывает мне те пробелы.Я могу что-нибудь сделать?
В большинстве случаев мне только нужны некоторые слова из файла PDF для нахождения его с recoll, но с пробелами я не возможен найти любого из них.
Я не думаю, что tesseract является моей проблемой. Кажется, что PDFViewers и Search-Tools заставили проблему читать текст OCR.
Эта проблема уже обсуждена здесь:
https://bugs.ghostscript.com/show_bug.cgi? id=696116
Я мог решить свою проблему с небольшим обходным решением:
Я не создаю файлы PDF на Карте с интерфейсом USB, но файлах JPEG. Те JPEGS могли легко преобразованный в доступные для поиска файлы PDF с:
tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf
Теперь я получил свои доступные для поиска файлы PDF, но свою первую проблему ist не решенный все же.