Я использовал программу html2text для извлечения деванагари в юникоде из файла html. Но это дает выход как,
« ».
В Windows я исправил бы это, используя функцию преобразования в Unicode в Notepad ++.
Что делать для Ubuntu?
Обновление: для целей тестирования я добавляю следующее:
echo आचार्यपूज्यपादानामिष्टं | html2text
отображает: ¾à¤®à¤¿à¤ · à ¥ à¤à¤
Вы могли попытаться использовать iconv
для преобразования входа в правильное кодирование. Unfortunatelly я не могу дать Вам более точную справку, просто пример возможного использования:
html2text myfile.html | iconv -f iso-8859-1 -t utf-8 -c > good_output.txt
Ofcourse необходимо заменить собственные наборы символов.
Обновление:
В Вашем случае рабочее решение состоит в том, чтобы добавить -utf8
параметр к html2text
:
echo आचार्यपूज्यपादानामिष्टं | html2text -utf8