Можно ли искать среди содержимого документов?

Мне было интересно, можно ли искать среди содержимого документов

  • возможно различных типов: pdf, djvu, html, текстовый файл, скрипт программного кода, ...
  • Возможно, под разными каталогами под каждым документами смешаны вместе и, возможно, с другими недокументированными файлами?

способен ли grep на такие вещи?

Спасибо и с уважением!

4
задан 13 April 2011 в 21:11

3 ответа

Да. Взгляните на FindingFiles в документации сообщества для Ubuntu. Некоторое время назад я использовал Tracker , который способен индексировать большинство типов документов и благодаря обновлению индекса в фоновом режиме был удивительно быстрым при поиске.

0
ответ дан 13 April 2011 в 21:11

Я использую Recoll. Это в репозиториях. Он также ищет pdf-метаданные. Вы можете выбрать, какие папки будут проиндексированы. Это очень быстро.

Установить:

sudo apt-get install recoll
0
ответ дан 13 April 2011 в 21:11

Вы могли выполнить команду на файлах, возвращенных командой находки.

Например, со следующей командой я перечисляю все файлы, начинающие с текущего каталога и на каждом, который я выполняю команду grep для поиска строки 'getUri'

find . -name '*.*' -exec grep --color 'getURI' {} +

Это работает отлично над моей Ubuntu 12.04

Так или иначе я не думаю, что команда grep может искать в рамках двоичных документов, таких как PDF.
Также использование команды выше на большом дереве каталогов могло быть очень обременительным с точки зрения вычислительного времени.

Другой аспект для рассмотрения - то, что Вы не можете искать строку в растре, PDF, в сосут вид сценария система управления документами, поскольку LogicalDoc мог помочь.

1
ответ дан 13 April 2011 в 21:11

Другие вопросы по тегам:

Похожие вопросы: