Ищите текстовую строку в прокомментированных файлах PDF

Question 1

При необходимости искать текстовую строку не только в теле файла PDF, но также и в комментариях, я установил Acrobat Reader на Ubuntu 18.04 LTS. Его поисковая функция работает правильно, но я задаюсь вопросом, существует ли другой способ выполнить ту задачу (pdfgrep?)

Question 2

1. Строки в комментариях в исходном коде PDF

Для строк в комментариях в исходном коде PDF можно безопасно предположить, что они не кодируются и появляются как плоскость ASCII или текст UTF-8.

Следовательно следующая команда должна работать:

strings my.pdf | grep -i 'searchstring'

Я должен добавить, что комментарии в исходном коде PDF были бы отмечены a %- символ в начале каждой строки комментария.

Кроме того, ни Adobe Acrobat, ни Adobe Reader не разоблачат результатов для строк в комментариях при поиске их.

2. Строки в текстовом содержании PDF

Вы не можете принять для нахождения текста в PDF так легко. Можно сделать следующее для нахождения определенной строки, хотя:

pdftotext -layout my.pdf - | grep -i 'searchstring'

Существует довольно много других методов командной строки (Вы сами упомянули pdfgrep), все же. Взять pdfgrep:

pdfgrep -n -i 'searchstring' my.pdf

(Здесь, -n печатает номер страницы с достойным строки, -i делает поиск нечувствительным к регистру.)

Kurt Pfeifle · Accepted Answer · 1 December 2019 в 16:16

1. Строки в комментариях в исходном коде PDF

Для строк в комментариях в исходном коде PDF можно безопасно предположить, что они не кодируются и появляются как плоскость ASCII или текст UTF-8.

Следовательно следующая команда должна работать:

strings my.pdf | grep -i 'searchstring'

Я должен добавить, что комментарии в исходном коде PDF были бы отмечены a %- символ в начале каждой строки комментария.

Кроме того, ни Adobe Acrobat, ни Adobe Reader не разоблачат результатов для строк в комментариях при поиске их.

2. Строки в текстовом содержании PDF

Вы не можете принять для нахождения текста в PDF так легко. Можно сделать следующее для нахождения определенной строки, хотя:

pdftotext -layout my.pdf - | grep -i 'searchstring'

Существует довольно много других методов командной строки (Вы сами упомянули pdfgrep), все же. Взять pdfgrep:

pdfgrep -n -i 'searchstring' my.pdf

(Здесь, -n печатает номер страницы с достойным строки, -i делает поиск нечувствительным к регистру.)

Ищите текстовую строку в прокомментированных файлах PDF

1 ответ

1. Строки в комментариях в исходном коде PDF

2. Строки в текстовом содержании PDF

Другие вопросы по тегам:

Похожие вопросы: