Как выполнить поиск файла PDF из командной строки?

Question 1

В моем случае добавление pcie_aspm = force в конфигурацию Grub не помогло. Похоже, что плохая производительность графики связана с этой ошибкой: низкая производительность на Intel® 965GM x86 / MMX / SSE2. Если у кого-то с Intel 965GM возникают те же проблемы, пожалуйста, проголосуйте за него (см., Как голосовать и убедитесь, что вы вошли в систему), надеюсь, что он будет исправлен раньше.

Question 2

poppler-utils

Примечание: xpdf-utils - это переходный пакет для poppler-utils.

Вы можете использовать poppler-utils. poppler-utils - это набор инструментов для файлов Portable Document Format (PDF).

Чтобы установить его, вы можете использовать Центр программного обеспечения Ubuntu или нажав ниже:

является переходным пакетом

pdfgrep

pdfgrep может искать строку или шаблон в файлах PDF рекурсивно в деревьях каталогов, подсчитывать совпадения или печатать некоторый контекст для каждого соответствия , Например, чтобы рекурсивно искать keyword в /some directory, регистр нечувствителен:

pdfgrep -Ri keyword /some/directory

Pdfgrep - это инструмент для поиска текста в файлах PDF. Он работает аналогично `grep '. Особенности: поиск регулярных выражений. поддержка некоторых важных параметров grep, включая: + имя файла. + номер страницы. + дополнительная чувствительность к регистру. + подсчеты. и самая важная особенность: выход цвета!

1Source: Каталог приложений Ubuntu

Question 3

Question 4

Для поиска регулярного выражения в нескольких файлах pdf с помощью pdfgrep:

find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;

, где путь - это место для ваших файлов pdf.

Question 5

Поскольку вы пытались использовать pdftotext с успехом, причина может заключаться в том, что PDF-файлы являются просто отсканированными изображениями, и вам нужно их распознать, я написал довольно простой способ поиска всех PDF-файлов, которые не могут быть grep ed и OCR их. [ ! d0]

Я заметил, что если файл pdf не имеет шрифта, он обычно не доступен для поиска. Итак, зная это, мы можем использовать pdffonts.

Первые две строки pdffonts - это заголовок таблицы, поэтому, когда файл доступен для поиска, имеет более двух строк, зная это, мы можем создать: [ ! d2]

gedit check_pdf_searchable.sh

, затем вставьте этот

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

, затем сделайте его исполняемым

chmod +x check_pdf_searchable.sh

, затем перечислите все файлы, не подлежащие поиску в каталоге: [!d5 ]

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

или в каталоге и его подкаталогах:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

gerlos · Answer 1 · 25 May 2018 в 06:49

poppler-utils

Примечание: xpdf-utils - это переходный пакет для poppler-utils.

Вы можете использовать poppler-utils. poppler-utils - это набор инструментов для файлов Portable Document Format (PDF).

Чтобы установить его, вы можете использовать Центр программного обеспечения Ubuntu или нажав ниже:

является переходным пакетом

pdfgrep

pdfgrep может искать строку или шаблон в файлах PDF рекурсивно в деревьях каталогов, подсчитывать совпадения или печатать некоторый контекст для каждого соответствия , Например, чтобы рекурсивно искать keyword в /some directory, регистр нечувствителен:

pdfgrep -Ri keyword /some/directory

Pdfgrep - это инструмент для поиска текста в файлах PDF. Он работает аналогично `grep '. Особенности: поиск регулярных выражений. поддержка некоторых важных параметров grep, включая: + имя файла. + номер страницы. + дополнительная чувствительность к регистру. + подсчеты. и самая важная особенность: выход цвета!

1Source: Каталог приложений Ubuntu

ignite · Answer 2 · 25 May 2018 в 06:49

Для поиска регулярного выражения в нескольких файлах pdf с помощью pdfgrep:

find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;

, где путь - это место для ваших файлов pdf.

Eduard Florinescu · Answer 3 · 25 May 2018 в 06:49

Поскольку вы пытались использовать pdftotext с успехом, причина может заключаться в том, что PDF-файлы являются просто отсканированными изображениями, и вам нужно их распознать, я написал довольно простой способ поиска всех PDF-файлов, которые не могут быть grep ed и OCR их. [ ! d0]

Я заметил, что если файл pdf не имеет шрифта, он обычно не доступен для поиска. Итак, зная это, мы можем использовать pdffonts.

Первые две строки pdffonts - это заголовок таблицы, поэтому, когда файл доступен для поиска, имеет более двух строк, зная это, мы можем создать: [ ! d2]

gedit check_pdf_searchable.sh

, затем вставьте этот

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

, затем сделайте его исполняемым

chmod +x check_pdf_searchable.sh

, затем перечислите все файлы, не подлежащие поиску в каталоге: [!d5 ]

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

или в каталоге и его подкаталогах:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Как выполнить поиск файла PDF из командной строки?

3 ответа

poppler-utils

pdfgrep

Другие вопросы по тегам:

Похожие вопросы: