Я использую pdftotext (часть poppler-utils) для преобразования документов в формате PDF для отправки текстовых сообщений. Это работает, по большей части, но одна вещь, которой я желаю ему, сделала должен был вставить пустые строки между отдельными абзацами вместо того, чтобы делать пюре из них вместе.
Там путь состоит в том, чтобы заставить pdftotext делать это? И в противном случае там другой PDF должен написать утилиту, которая может сделать это?
Вы могли попробовать ebook-convert
от Калибра.
В любом случае я сказал бы, что это допускает ошибку в другом направлении: слишком много разрывов строки.
Другая вещь, которую я определенно рассмотрел бы, хотя преобразовывает в HTML с помощью pdfreflow и затем преобразовывают HTML в TXT.
Если у Вас есть учетная запись Google, можно использовать Google Docs, чтобы загрузить PDF и преобразовать ее в доступный для редактирования текст.
При использовании pdftotext, можно использовать -layout
отметьте для сохранения расположения текста на страницах во входе файл PDF:
pdftotext -layout input.pdf output.txt
Как вентилятор открытого исходного кода (и автоматизация) я очень не хочу сказать это, но лучшие результаты, которые я просто получил (на вполне большом, сложном PDF) должны были открыть его в Adobe Reader, затем выбрать File|Save As Text.
(Я предварительно обрабатываю для экспериментов анализа текста, не как читатель, но я думаю, что моим первым и вторым выбором было бы то же.)
Я сравнивал вывод бок о бок. Моим вторым выбором является преобразование электронная книга.
Adobe: оставленный в FF для разрывов страницы, оставленных в номерах страниц, не преобразовал заголовки/абзацы в одни строки, но он зафиксировал дефисы. Спам, который был скрыт в PDF, не стал произведенным. Правильно получил большие прописные буквы в начале разделов, например, не "T он" или даже "T он".
преобразуйте электронная книга: Оставленный в номерах страниц и некотором скрытом спаме в заголовке/нижнем колонтитуле (но никакой FFs). Преобразовывает большинство абзацев, чтобы быть одними строками. Те, которых это скучало, с двумя пробелами хотя! Маркеры не всегда выстраиваются в линию с текстом. Правильно добрался в начале главы.
pdftotext (без - расположение): Не плохо, маркеры выстраиваются в линию, но шум заголовка/нижнего колонтитула. FFs там. Дефисы удалены. Худший для запуска главы большие буквы: "T\n\nhe".
pdftotext (с - расположение): Подобный, но больше отступов. "T он" для запуска главы.
pdftohtml>> pdfreflow>> htmltotext: Это удалило номера страниц, но все еще выбросьте в заголовке/нижнем колонтитуле. "T он" для запуска главы. Дефисы удалены. (Это использует несколько строк на абзац, все же они не те же разрывы строки как в других версиях!)
Я также попробовал pypdf и сравнил его с pdftotext на двух документах. Это имело больше разрывов строки и разделяло некоторые имена раздела (ССЫЛКИ был R E F E R E N C E S).
pdf2txt действительно производил полный мусор.
Я часто использую pdfBox (Java), если pdftotext завинчивает вывод. Вы могли бы дать ему попытку.