ПРОБЛЕМА: данные Unicode повреждены из программы ascii

Question 1

Я использовал программу html2text для извлечения деванагари в юникоде из файла html. Но это дает выход как,

« ».

В Windows я исправил бы это, используя функцию преобразования в Unicode в Notepad ++.

Что делать для Ubuntu?

Обновление: для целей тестирования я добавляю следующее:

echo आचार्यपूज्यपादानामिष्टं | html2text

отображает: ¾à¤®à¤¿à¤ · à ¥ à¤à¤

Question 2

Вы могли попытаться использовать iconv для преобразования входа в правильное кодирование. Unfortunatelly я не могу дать Вам более точную справку, просто пример возможного использования:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

Ofcourse необходимо заменить собственные наборы символов.

Обновление:

В Вашем случае рабочее решение состоит в том, чтобы добавить -utf8 параметр к html2text:

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8

Frantique · Accepted Answer · 18 June 2014 в 11:49

Вы могли попытаться использовать iconv для преобразования входа в правильное кодирование. Unfortunatelly я не могу дать Вам более точную справку, просто пример возможного использования:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

Ofcourse необходимо заменить собственные наборы символов.

Обновление:

В Вашем случае рабочее решение состоит в том, чтобы добавить -utf8 параметр к html2text:

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8

ПРОБЛЕМА: данные Unicode повреждены из программы ascii

1 ответ

Другие вопросы по тегам:

Похожие вопросы: