При необходимости искать текстовую строку не только в теле файла PDF, но также и в комментариях, я установил Acrobat Reader на Ubuntu 18.04 LTS. Его поисковая функция работает правильно, но я задаюсь вопросом, существует ли другой способ выполнить ту задачу (pdfgrep?)
Для строк в комментариях в исходном коде PDF можно безопасно предположить, что они не кодируются и появляются как плоскость ASCII или текст UTF-8.
Следовательно следующая команда должна работать:
strings my.pdf | grep -i 'searchstring'
Я должен добавить, что комментарии в исходном коде PDF были бы отмечены a %
- символ в начале каждой строки комментария.
Кроме того, ни Adobe Acrobat, ни Adobe Reader не разоблачат результатов для строк в комментариях при поиске их.
Вы не можете принять для нахождения текста в PDF так легко. Можно сделать следующее для нахождения определенной строки, хотя:
pdftotext -layout my.pdf - | grep -i 'searchstring'
Существует довольно много других методов командной строки (Вы сами упомянули pdfgrep
), все же. Взять pdfgrep
:
pdfgrep -n -i 'searchstring' my.pdf
(Здесь, -n
печатает номер страницы с достойным строки, -i
делает поиск нечувствительным к регистру.)