Выполнение бездисплейного (только опция с тех пор на сервере 14.04) пытающийся преобразовать .doc файлы в .txt, чтобы смочь быть поглощенным php. Выполнение
soffice --headless --convert-to txt test.doc
производит файл test.txt, с содержанием как:
504b 0304 1400 0008 0000 0313 2247 9f03
2ec4 2b00 0000 2b00 0000 0800 0000 6d69
6d65 7479 7065 6170 706c 6963 6174 696f
6e2f 766e 642e 6f61 7369 732e 6f70 656e
...
0000 c1a3 0000 4d45 5441 2d49 4e46 2f6d
616e 6966 6573 742e 786d 6c50 4b05 0600
0000 000e 000e 0094 0300 0007 a500 0000
00
преобразование в .pdf работает просто великолепно.
Я предполагаю, что библиотека отсутствует..., но неизвестная, где запустить. Я сделал прямую установку libreoffice... apt-get install libreoffice
выполнение тех же файлов на Mac с libreoffice работает просто великолепно, таким образом, я могу исключить любые инициирующие проблемы типа файла.
У кого-либо есть какие-либо мысли?
От начальной последовательности байта 504b 0304
возможно вывести, что вывод в форме zip
архив.
На самом деле, простой тест с минимальным .doc
файл показывает что, указывая --convert-to txt
один результаты в файле текста OpenDocument - но с .txt
расширение:
:~$ soffice --headless --convert-to txt testdoc.doc
convert /home/steeldriver/testdoc.doc -> /home/steeldriver/testdoc.txt using
Overwriting: /home/steeldriver/testdoc.txt
:~$ file testdoc.txt
testdoc.txt: OpenDocument Text
:~$ zipinfo testdoc.txt
Archive: testdoc.txt
Zip file size: 8764 bytes, number of entries: 15
-rw---- 2.0 fat 39 b- stor 15-Sep-02 15:58 mimetype
-rw---- 2.0 fat 1136 b- stor 15-Sep-02 15:58 Thumbnails/thumbnail.png
-rw---- 2.0 fat 4065 bl defN 15-Sep-02 15:58 content.xml
-rw---- 2.0 fat 8849 bl defN 15-Sep-02 15:58 settings.xml
-rw---- 2.0 fat 894 bl defN 15-Sep-02 15:58 meta.xml
-rw---- 2.0 fat 14890 bl defN 15-Sep-02 15:58 styles.xml
-rw---- 2.0 fat 899 bl defN 15-Sep-02 15:58 manifest.rdf
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/toolpanel/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/progressbar/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/floater/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/statusbar/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/toolbar/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/popupmenu/
-rw---- 2.0 fat 0 b- stor 15-Sep-02 15:58 Configurations2/menubar/
-rw---- 2.0 fat 978 bl defN 15-Sep-02 15:58 META-INF/manifest.xml
15 files, 31750 bytes uncompressed, 6938 bytes compressed: 78.1%
для принуждения преобразования простого текста, необходимо указать выходной фильтр , а также расширение:
:~$ soffice --headless --convert-to txt:Text testdoc.doc
convert /home/steeldriver/testdoc.doc -> /home/steeldriver/testdoc.txt using Text
Overwriting: /home/steeldriver/testdoc.txt
:~$ file testdoc.txt
testdoc.txt: UTF-8 Unicode (with BOM) text
Примечание это - все еще UTF-8 с BOM: Я не преуспел в том, чтобы найти фильтр, который производит плоскость ASCII. Если Вам абсолютно нужен ASCII всегда существует iconv
, например,
iconv -t ASCII//TRANSLIT testdoc.txt