Извлечь текст из pdf, файла MS office и другого документа [закрыто]

Мне нужен инструмент командной строки, который будет извлекать простой текст из файлов MS office (все форматы), pdf и других форматов файлов.

Я просмотрел командную строку libre office, но не смог найти фильтры для всех форматов

-1
задан 12 September 2013 в 08:28

1 ответ

Для офисных файлов вы можете использовать:

libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file

Подробнее о:

Что касается PDF-файлов, я вижу, что вы нашли pdftotext.

0
ответ дан 12 September 2013 в 08:28

Другие вопросы по тегам:

Похожие вопросы: