У меня есть файл PDF, и я должен добраться, получают маленькие части данных из него. Это структурировано как это:
Page1:
Вопрос 1
......................................
......................................
Вопрос 2
......................................
......................................
Конец страницы
Я хочу получить Вопрос 1 и Вопрос 2 как отдельные файлы HTML, которые содержат текст и изображение.
Я попробовал
pdftohtml -c pdffile.pdf output.html
И я получил файлы с изображениями png, но как сделать, я сократил Изображение в меньшие блоки для установки размеру каждого Вопроса (я хочу разделить каждый вопрос на отдельные файлы)?
Существует (коммерческое) приложение, названное *разделение A-PDF", которое помогает Вам разделить содержание вручную согласно Вашему требованию.