В Ubuntu 16.04 pdfimages -all
создает файлы изображений, у которых сумма использования хранилища больше, чем у файлов PDF, из которых они получены.
Есть ли объяснение этому? Как извлечь файлы изображений, размер которых не превышает размер, который они используют в .pdf
, без компенсации качества изображения?
Примечание. Я пробовал подход, использующий команду pdftohtml
( Извлечение встроенных изображений из PDF ), но файлы, похоже, не позволяют мне из-за какого-то разрешения, связанного с извлечением текста (я получаю ошибку: Permission Error: Copying of text from this document is not allowed.
).