Мне нужен инструмент командной строки, который будет извлекать простой текст из файлов MS office (все форматы), pdf и других форматов файлов.
Я просмотрел командную строку libre office, но не смог найти фильтры для всех форматов
Для офисных файлов вы можете использовать:
libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file
Подробнее о:
man libreoffice
Что касается PDF-файлов, я вижу, что вы нашли pdftotext
.