Значение по умолчанию Ubuntu docx синтаксический анализатор

Я только что установил Recoll для индексации моих текстовых файлов. Это работает как очарование, но что удивило меня, то, что это смогло индексировать docx по умолчанию, в то время как спросили установить антислово для индексации файлов документа. Я знаю документ, и docx имеют различные типы MIME, но они могут оба быть легко открыты Libre.

То, что я хочу понять: каким образом docx файлы были проанализированы из поля, в то время как файлы документа потребовали дополнительного приложения (антислово)? Это - любой Lible, используется по умолчанию для docx только (относительно которого я сомневаюсь, потому что, когда я перемещаюсь по своим файлам в Наутилусе и документ и docx распознаны как файлы LibleOffice), или Ubuntu имеет некоторый другой синтаксический анализатор документов, о котором я не знаю?

В любом случае я удивлен видеть, что более сложный Office Победы файлы лучше поддерживается, чем более простые.

ОБНОВЛЕНИЕ: Просто проверенный оба типа MIME с xdg-моим. Мой вопрос все еще стоит. Почему файлы документа не были индексированы по умолчанию?

yuranos@yuranos-XPS-15-9550:~/development$ xdg-mime query default application/msword
libreoffice-writer.desktop
yuranos@yuranos-XPS-15-9550:~/development$ xdg-mime query default application/vnd.openxmlformats-officedocument.wordprocessingml.document
libreoffice-writer.desktop
1
задан 5 March 2017 в 13:48

1 ответ

файлы docx основаны на XML и анализируются Recoll использование простого xslt преобразования. В зависимости от версий Recoll этому просто нужны или xsltproc или в Python libxml2/libxslt, который будет установлен. Это общие зависимости, и они могут быть в Вашей системе по некоторой другой причине.

старый .doc формат является двоичным форматом, который не может быть обработан непосредственно recoll, который вместо этого использует антислово для извлечения текста.

2
ответ дан 7 December 2019 в 13:36

Другие вопросы по тегам:

Похожие вопросы: