Я ищу инструмент, который преобразует страницы PDF-файла в HTML-файлы. Мне просто нужен текст и форматирование - меня не волнуют изображения и другие медиа.
pdftohtml , вероятно, то, что вы ищете.
Информация о пакете: packages.ubuntu.com/lucid/pdftohtml