Почему некоторые OCRed pdfs можно использовать, а некоторые нет?

Question 1

Итак, допустим, у меня есть 10 файлов, которые можно искать с помощью pdfgrep

. Некоторые из них доступны для поиска с использованием grep, а некоторые нет

Почему это так? Какова черта, которая позволяет PDF-файлам быть greppbale?

Question 2

А без указания источника этих PDF-файлов трудно сказать наверняка, но PDF-файл может быть одним из нескольких:

Фактический текстовый документ, строки, инструкции по форматированию, и т. д. Легко вписывается.
Изображение, которое было пропущено через механизм распознавания текста для встраивания текста под изображение. Легко вписывается.
Изображение листа бумаги. Не допускается.

Я бы предположил, что те, кого вы не можете использовать, не сделали OCR. Есть процессы для этого, но это немного более важный вопрос.

Oli · Answer 1 · 5 July 2013 в 20:28

А без указания источника этих PDF-файлов трудно сказать наверняка, но PDF-файл может быть одним из нескольких:

Фактический текстовый документ, строки, инструкции по форматированию, и т. д. Легко вписывается.
Изображение, которое было пропущено через механизм распознавания текста для встраивания текста под изображение. Легко вписывается.
Изображение листа бумаги. Не допускается.

Я бы предположил, что те, кого вы не можете использовать, не сделали OCR. Есть процессы для этого, но это немного более важный вопрос.

1 ответ