Можно ли искать среди контента документы?

Мне было интересно, можно ли искать среди содержимого документов

, возможно, разных типов: pdf, djvu, html, текстовый файл, код сценария программирования ... возможно, под разными каталогами под каждым документы смешиваются вместе и, возможно, с другими файлами без документов?

Является ли grep способным делать такие вещи?

Спасибо и приветствую!

4
задан 13 April 2011 в 22:11

21 ответ

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

sudo apt-get install recoll
3
ответ дан 25 July 2018 в 22:13
[D0] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker, который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 25 July 2018 в 22:13

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

find . -name '*.*' -exec grep --color 'getURI' {} +

Это отлично работает на моем Ubuntu 12.04 [ ! d3]

В любом случае, я не думаю, что команда grep может искать в двоичных документах, таких как PDF. Также использование вышеприведенной команды в большом дереве каталогов может быть очень обременительным с точки зрения вычислительное время. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария система документооборота, которую может помочь LogicalDoc.

1
ответ дан 25 July 2018 в 22:13

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

sudo apt-get install recoll
3
ответ дан 2 August 2018 в 03:41
[D0] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker, который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 2 August 2018 в 03:41

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

find . -name '*.*' -exec grep --color 'getURI' {} +

Это отлично работает на моем Ubuntu 12.04 [ ! d3]

В любом случае, я не думаю, что команда grep может искать в двоичных документах, таких как PDF. Также использование вышеприведенной команды в большом дереве каталогов может быть очень обременительным с точки зрения вычислительное время. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария система документооборота, которую может помочь LogicalDoc.

1
ответ дан 2 August 2018 в 03:41

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

sudo apt-get install recoll
3
ответ дан 4 August 2018 в 19:45
[D0] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker, который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 4 August 2018 в 19:45

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

find . -name '*.*' -exec grep --color 'getURI' {} +

Это отлично работает на моем Ubuntu 12.04 [ ! d3]

В любом случае, я не думаю, что команда grep может искать в двоичных документах, таких как PDF. Также использование вышеприведенной команды в большом дереве каталогов может быть очень обременительным с точки зрения вычислительное время. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария система документооборота, которую может помочь LogicalDoc.

1
ответ дан 4 August 2018 в 19:45
[D2] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker , который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 6 August 2018 в 03:49

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

  find.  -name '*. *' -exec grep --color 'getURI' {} +  

Это отлично работает на моем Ubuntu 12.04

В любом случае, я не думаю что команда grep может выполнять поиск в двоичных документах, таких как PDF. Также использование команды выше в большом дереве каталогов может быть очень обременительным с точки зрения вычислительного времени. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария могла бы помочь система управления документами LogicalDoc .

1
ответ дан 6 August 2018 в 03:49

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

  sudo apt-get install recoll  
3
ответ дан 6 August 2018 в 03:49

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

  sudo apt-get install recoll  
3
ответ дан 7 August 2018 в 21:45
[D2] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker , который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 7 August 2018 в 21:45

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

  find.  -name '*. *' -exec grep --color 'getURI' {} +  

Это отлично работает на моем Ubuntu 12.04

В любом случае, я не думаю что команда grep может выполнять поиск в двоичных документах, таких как PDF. Также использование команды выше в большом дереве каталогов может быть очень обременительным с точки зрения вычислительного времени. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария могла бы помочь система управления документами LogicalDoc .

1
ответ дан 7 August 2018 в 21:45

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

  sudo apt-get install recoll  
3
ответ дан 10 August 2018 в 09:58
[D2] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker , который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 10 August 2018 в 09:58

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

  find.  -name '*. *' -exec grep --color 'getURI' {} +  

Это отлично работает на моем Ubuntu 12.04

В любом случае, я не думаю что команда grep может выполнять поиск в двоичных документах, таких как PDF. Также использование команды выше в большом дереве каталогов может быть очень обременительным с точки зрения вычислительного времени. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария могла бы помочь система управления документами LogicalDoc .

1
ответ дан 10 August 2018 в 09:58

Вы можете запустить команду в файлах, возвращаемых командой find. Например, со следующей командой я перечисляю все файлы, начиная с текущего каталога, и каждый из них запускаю команду grep для поиска строки 'getUri'

  find.  -name '*. *' -exec grep --color 'getURI' {} +  

Это отлично работает на моем Ubuntu 12.04

В любом случае, я не думаю что команда grep может выполнять поиск в двоичных документах, таких как PDF. Также использование команды выше в большом дереве каталогов может быть очень обременительным с точки зрения вычислительного времени. Еще один аспект, который следует учитывать, заключается в том, что вы не можете искать строку в растровом PDF-файле, в зависимости от типа сценария могла бы помочь система управления документами LogicalDoc .

1
ответ дан 13 August 2018 в 16:18
[D2] Да. Посмотрите на FindingFiles в документации сообщества для Ubuntu. Тот, который я использовал некоторое время, был Tracker , который способен индексировать большинство типов документов и, благодаря сохранению индекса, обновленного в фоновом режиме, был удивительно быстрым при поиске.

2
ответ дан 13 August 2018 в 16:18

Я использую Recoll. Он находится в репозиториях. Он также выполняет поиск pdf-метаданных. Вы можете выбрать, какие папки индексируются. Это очень быстро.

Установить:

  sudo apt-get install recoll  
3
ответ дан 13 August 2018 в 16:18

Другие вопросы по тегам:

Похожие вопросы: