Я пытаюсь найти некоторый текст в файлах PDF, но результаты не точны! Для exemple у меня есть 2 файла PDF, которые имеют слово domiciiado. Когда я выполняю поиск этого слова (domiciliado), docfetcher показывает ТОЛЬКО ОДИН файл PDF с этим словом. Мой вопрос состоит в том, почему docfetcher не показывает другой файл PDF с этим словом? Существует ли различие между файлами PDF? В одном PDF у меня есть только текст, и другие PDFs являются текстами и изображениями, и это из отсканированной страницы. Какова выгода?
P.S.: 2 файла PDF находятся в том же каталоге
там какое-либо различие между файлами PDF только с текстом и файлами PDF с текстами и отображает отсканированные страницы?
Да, файлы PDF с текстом и файлы PDF с отсканированными изображениями отличаются. В основанном на изображении PDF компьютер только видит, что тексты изображений и распознавания в рамках этих изображений требуют, чтобы дополнительные возможности были встроены в механизм PDF, такой как Оптическое распознавание символов (OCR). PDFs с текстом легче для компьютера искать, потому что компьютер может распознать текст непосредственно.
Рекомендация
Один способ искать просканированный PDF сначала делает OCR на них, чтобы извлечь текст и затем выполнить поиск. Взгляните на этот вопрос для некоторого хорошего OCR для Ubuntu What' s лучшее, самое простое решение OCR?
Для поиска текстов в PDFs с текстом только, я рекомендую инструмент командной строки pdfgrep. Также существуют другие хорошие варианты. Смотрите на этот вопрос , Как я ищу файл PDF из командной строки?