Как выполнить массовое преобразование html-содержимого eml-файлов в doc-файлы

Я получил более 5000 файлов eml с содержимым html (объявленным как text / html utf-8 в заголовках, но ...), и мне нужно преобразовать их в единственный формат, поддерживаемый нашим сторонним переводчиком - Microsoft Word .doc [ 111]

Я могу сделать это вручную, открыв его в Thunderbird и скопировав и вставив его в openoffice, но это требует много ручного труда.

Моим последним попыткой было извлечь html-контент с помощью команды "munpack -t", но это каким-то образом нарушило кодировку. Даже если я добавлю мета-заголовок в html-файл, определяющий кодировку utf-8, он не работает. После более внимательного изучения этих файлов eml я уверен, что это не utf-8, althroug определен как, и thunderbird может их прочитать хорошо.

К сожалению, я не могу предоставить эти файлы, так как они содержат «конфиденциальные данные компании». Я надеюсь, что кто-то сможет распознать проблему или порекомендовать новый инструмент.

редактировать: Пример файла (с удалением конфиденциальных данных) https://pastebin.com/qm1rBh7t

0
задан 28 June 2017 в 10:51

1 ответ

никогда делавшийся это так никакая идея. быстрый поиск с поисковой системой нашел

https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix

, который содержит

- запускаются, кавычка

"Одна опция является libreoffice/openoffice в бездисплейном режиме (удостоверьтесь, что все другие экземпляры libreoffice закрываются сначала):

libreoffice - бездисплейный - преобразовывают - в txt:text mydocument.doc

, для получения дополнительной информации посмотрите, например, эта ссылка: http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/

Для списка фильтров libreoffice видит http://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters

, Так как openoffice синтаксис командной строки является немного слишком сложным, существует удобная обертка, которая может сделать процесс легче: unoconv".

- заканчивают кавычку

, я экспериментировал бы с этим для единственного файла, затем просто вставил бы for цикл, чтобы сделать их всех. это предназначается как идея, надеясь, что она продвинет Вас, где я думаю, может работать (или по крайней мере привести к фиксации)

0
ответ дан 28 June 2017 в 20:51

Другие вопросы по тегам:

Похожие вопросы: