Мне было интересно, можно ли искать среди содержимого документов
способен ли grep на такие вещи?
Спасибо и с уважением!
Да. Взгляните на FindingFiles в документации сообщества для Ubuntu. Некоторое время назад я использовал Tracker , который способен индексировать большинство типов документов и благодаря обновлению индекса в фоновом режиме был удивительно быстрым при поиске.
Я использую Recoll. Это в репозиториях. Он также ищет pdf-метаданные. Вы можете выбрать, какие папки будут проиндексированы. Это очень быстро.
Установить:
sudo apt-get install recoll
Вы могли выполнить команду на файлах, возвращенных командой находки.
Например, со следующей командой я перечисляю все файлы, начинающие с текущего каталога и на каждом, который я выполняю команду grep для поиска строки 'getUri'
find . -name '*.*' -exec grep --color 'getURI' {} +
Это работает отлично над моей Ubuntu 12.04
Так или иначе я не думаю, что команда grep может искать в рамках двоичных документов, таких как PDF.
Также использование команды выше на большом дереве каталогов могло быть очень обременительным с точки зрения вычислительного времени.
Другой аспект для рассмотрения - то, что Вы не можете искать строку в растре, PDF, в сосут вид сценария система управления документами, поскольку LogicalDoc мог помочь.