Я использовал html2text программу для извлечения unicode devanagari из html-файла. Но он дает выходные данные,
"à¤¶à ¥ ठ° à¤|à ¥ धधानाना¾à¤".В Windows я исправлю это, используя функцию преобразования в unicode в Notepad ++.
Что делать для Ubuntu?
Обновление: для целей тестирования я добавляю следующее:
"à¤¶à ¥ ठ° à¤|à ¥ à¤§à¤§à¤¾à ¤¨à¤¾à¤¨à¤¾à¤».
echo आचार्यपूज्यपादानामिष्टं | html2text