Сервер Ubuntu LibreOffice Преобразовывает в txt Ошибку

Выполнение бездисплейного (только опция с тех пор на сервере 14.04) пытающийся преобразовать .doc файлы в .txt, чтобы смочь быть поглощенным php. Выполнение

soffice --headless --convert-to txt test.doc

производит файл test.txt, с содержанием как:

504b 0304 1400 0008 0000 0313 2247 9f03
2ec4 2b00 0000 2b00 0000 0800 0000 6d69
6d65 7479 7065 6170 706c 6963 6174 696f
6e2f 766e 642e 6f61 7369 732e 6f70 656e
...
0000 c1a3 0000 4d45 5441 2d49 4e46 2f6d
616e 6966 6573 742e 786d 6c50 4b05 0600
0000 000e 000e 0094 0300 0007 a500 0000
00

преобразование в .pdf работает просто великолепно.

Я предполагаю, что библиотека отсутствует..., но неизвестная, где запустить. Я сделал прямую установку libreoffice... apt-get install libreoffice

выполнение тех же файлов на Mac с libreoffice работает просто великолепно, таким образом, я могу исключить любые инициирующие проблемы типа файла.

У кого-либо есть какие-либо мысли?

2
задан 2 September 2015 в 09:12

1 ответ

От начальной последовательности байта 504b 0304 возможно вывести, что вывод в форме zip архив.

На самом деле, простой тест с минимальным .doc файл показывает что, указывая --convert-to txt один результаты в файле текста OpenDocument - но с .txt расширение:

:~$ soffice --headless --convert-to txt testdoc.doc
convert /home/steeldriver/testdoc.doc -> /home/steeldriver/testdoc.txt using 
Overwriting: /home/steeldriver/testdoc.txt

:~$ file testdoc.txt
testdoc.txt: OpenDocument Text

:~$ zipinfo testdoc.txt
Archive:  testdoc.txt
Zip file size: 8764 bytes, number of entries: 15
-rw----     2.0 fat       39 b- stor 15-Sep-02 15:58 mimetype
-rw----     2.0 fat     1136 b- stor 15-Sep-02 15:58 Thumbnails/thumbnail.png
-rw----     2.0 fat     4065 bl defN 15-Sep-02 15:58 content.xml
-rw----     2.0 fat     8849 bl defN 15-Sep-02 15:58 settings.xml
-rw----     2.0 fat      894 bl defN 15-Sep-02 15:58 meta.xml
-rw----     2.0 fat    14890 bl defN 15-Sep-02 15:58 styles.xml
-rw----     2.0 fat      899 bl defN 15-Sep-02 15:58 manifest.rdf
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/toolpanel/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/progressbar/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/floater/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/statusbar/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/toolbar/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/popupmenu/
-rw----     2.0 fat        0 b- stor 15-Sep-02 15:58 Configurations2/menubar/
-rw----     2.0 fat      978 bl defN 15-Sep-02 15:58 META-INF/manifest.xml
15 files, 31750 bytes uncompressed, 6938 bytes compressed:  78.1%

для принуждения преобразования простого текста, необходимо указать выходной фильтр , а также расширение:

:~$ soffice --headless --convert-to txt:Text testdoc.doc
convert /home/steeldriver/testdoc.doc -> /home/steeldriver/testdoc.txt using Text
Overwriting: /home/steeldriver/testdoc.txt

:~$ file testdoc.txt
testdoc.txt: UTF-8 Unicode (with BOM) text

Примечание это - все еще UTF-8 с BOM: Я не преуспел в том, чтобы найти фильтр, который производит плоскость ASCII. Если Вам абсолютно нужен ASCII всегда существует iconv, например,

iconv -t ASCII//TRANSLIT testdoc.txt
0
ответ дан 3 December 2019 в 00:02

Другие вопросы по тегам:

Похожие вопросы: