выполнение:
pdftohtml -c document.pdf output.htm
это возвращает нормальный вывод, но фоновые изображения имеют такое низкое качество, они не могут быть считаны.
Действительно ли это - ошибка с pdftohtml, или я могу изменить файл конфигурации где-нибудь?
любая справка очень ценилась бы, аплодисменты :)
выполнение: Ubuntu 10.04 LTS
Я не совсем уверен, но посмотрите, не связана ли ваша проблема с этой ошибкой. http://web.archiveorange.com/archive/v/RybTrtkbz0vNyQrK1IlX
. Обойтись без ошибок, это чревато потенциальными выходными бедствиями, PDF - это сложный формат документа, обычно не предназначенный для преобразования в другие форматы, он в основном предназначен для отображения и печати как есть.
Извлечение текста и изображений легко с помощью того же инструмента, который вы упомянули, без ключа -c, который пытается сохранить внешний вид исходного PDF,
Я бы сказал, попытайтесь преобразовать без использования ключа -c, это, вероятно, даст вам достаточно хороших изображений, но макет может быть не тем, что вы хотите, но, возможно, вы могли бы создать что-то, чтобы исправить это. Вам, возможно, не придется ничего исправлять, если PDF прост.
Я не уверен, что вы можете настроить его, но вы можете попробовать использовать Openoffice с расширением pdf-import для выполнения ваших преобразований.