У меня есть несколько файлов шаблона Microsoft Word. Они имеют *.dot
расширение:
$ file file.dot
file.dot: Composite Document File V2 Document, Little Endian, Os: Windows, Version 6.1, Code page: 1252, Author: user, Template: file.dot, Last Saved By: user, Revision Number: 2, Name of Creating Application: Microsoft Office Word, Total Editing Time: 01:00, Last Printed: Tue Nov 21 14:41:00 1995, Create Time/Date: Fri Dec 20 11:46:00 2019, Last Saved Time/Date: Fri Dec 20 11:46:00 2019, Number of Pages: 3, Number of Words: 300, Number of Characters: 1713, Security: 0
Я должен преобразовать их в простой текст с помощью некоторого приложения CLI.
Действительно ли это возможно?
Можно использовать LibreOffice в терминале.
soffice --headless --convert-to txt:Text YOUR-DOCUMENT-HERE.DOT
Существует также antiword
(использование deb-пакет ), который извлекает простой текст из старых (pre-XML) документов Word в очень эффективном, но не всегда совершенно корректный путь.