У меня есть файл PDF.
Я должен скопировать некоторый текст с него сохраняющий его форматирование (таким образом, я должен сохранить курсив, полужирный, _underline _, размеры шрифта и цвета, ссылки).
Кажется, что я должен скопировать текст с PDF как HTML или RTF (или что-то подобное).
Я попробовал:
pdf2htmlex
- получил HTML, но копирование с веб-браузера разъясняет весь текст снова;Какое программное обеспечение из Ubuntu 16.04 репозиторий LTS я должен использовать для решения моей проблемы?
Это вообще невозможно. Даже с Acrobat Reader Pro. Adobe рекомендует сохранять в формате Word или HTML. Evince или Okular позволят вам копировать и вставлять, используя средство просмотра из utf8, но это в основном отбрасывает форматирование.
Как вы сказали, лучше всего использовать импорт LibreOffice, который пытается сохранить многие функции формата PDF, которые отображаются в формате PDF. Кроме того, вы можете использовать инструмент pdftk
, чтобы выбрать определенные страницы из большего файла PDF, а затем импортировать их в LibreOffice.