Удалите страницы с избыточным содержанием из документа в формате PDF

У меня есть огромный документ в формате PDF (несколько сотен страниц), который был очень вероятно произведен из презентации PowerPoint.

Это содержит шаг одной страницы за презентацию, поэтому если на одном слайде PowerPoint был некоторый текст или изображение, которое появилось позже с анимацией, в PDF будет две страницы: один только с начальным контентом слайда и один с добавленным анимированным объектом.

У меня нет доступа к исходной презентации, только PDF.

Теперь существует ли путь (сценарий, приложение...), чтобы автоматически удалить все избыточные страницы и только сохранить последнюю страницу со всей информацией каждого набора страниц на исходный слайд, отбрасывая неполные страницы с шагами анимации?

Алгоритм проверки на самом деле был бы довольно прост: для каждой страницы проверьте, содержит ли следующая страница по крайней мере всю информацию (текст, изображения, объекты) от текущей страницы или больше, и если так, удалите текущую страницу.

К сожалению, я понятия не имею, ли или как возможно сравнить страницы документов в формате PDF и узнать, является ли элементы каждый подмножеством другой или нет.

Можно ли дать мне какое-либо решение, которое помогает мне убрать свой огромный документ в формате PDF и удалить шаги анимации для распечатывания его?

Я действительно не хочу редактора PDF приложение, где я должен проверить и удалить все страницы вручную так или иначе, у меня уже есть https://www.xodo.com/для этого. То, на что я надеюсь, является способом автоматизировать процесс.

5
задан 22 February 2017 в 13:25

3 ответа

Вы изучили pdfbox? Можно вызвать его различные функции из командной строки . Можно извлечь каждую страницу как текст, использовать разность, чтобы видеть, имеет ли каждая последовательная страница главным образом дополнения к предыдущему, отслеживайте интересные страницы, то используйте pdfbox, снова извлекают только те страницы.

я предполагаю от Вашей оценки, что Вам не нужны подробные инструкции для того, как выполнить все это :)

2
ответ дан 23 November 2019 в 10:35

Если настольное приложение вместо инструмента командной строки приемлемо, можно попробовать модуль Объединения и Переупорядочивания PDFsam Визуальный (это свободно и полностью функционально в течение 14 дней). Это показывает миниатюры страниц, можно прокрутить все сотни страниц и удалить тех, Вы хотите отбросить. Это - немного физического труда, но я сомневаюсь, что Вы найдете инструмент, который автоматически делает то, что Вы спросили.

Вы говорили об огромном документе в формате PDF, таким образом, Визуальный PDFsam мог бы перестать работать со стандартными настройками, в этом случае пишут нам , и мы можем попробовать некоторую другую установку.

Правовая оговорка: я - один из авторов.

0
ответ дан 23 November 2019 в 10:35

Мне точно понадобилось то же самое. Поэтому я создал скрипт Python, который автоматизирует эту проверку и удаление страниц с избыточным содержимым из PDF. Дайте ему чек здесь .

Это хорошо работает для повторяющегося текстового содержимого, но может не сохранять изображения, если анимация на том же слайде заменяет предыдущее изображение - потому что мне это не нужно. Если кто-нибудь найдет способ, дайте мне знать, открыв PR - я буду рад его улучшить.

PS: Спасибо за подробный вопрос! Это помогло мне написать хороший ридми для этого скрипта. :)

2
ответ дан 25 January 2020 в 15:27

Другие вопросы по тегам:

Похожие вопросы: