Почему некоторые OCRed pdfs можно использовать, а некоторые нет?

Итак, допустим, у меня есть 10 файлов, которые можно искать с помощью pdfgrep

. Некоторые из них доступны для поиска с использованием grep, а некоторые нет

Почему это так? Какова черта, которая позволяет PDF-файлам быть greppbale?

0
задан 5 July 2013 в 20:28

1 ответ

А без указания источника этих PDF-файлов трудно сказать наверняка, но PDF-файл может быть одним из нескольких:

  • Фактический текстовый документ, строки, инструкции по форматированию, и т. д. Легко вписывается.
  • Изображение, которое было пропущено через механизм распознавания текста для встраивания текста под изображение. Легко вписывается.
  • Изображение листа бумаги. Не допускается.

Я бы предположил, что те, кого вы не можете использовать, не сделали OCR. Есть процессы для этого, но это немного более важный вопрос.

0
ответ дан 5 July 2013 в 20:28

Другие вопросы по тегам:

Похожие вопросы: