Существует ли лучший PDF для отправки текстовых сообщений преобразователю, чем pdftotext?

Question 1

Я использую pdftotext (часть poppler-utils) для преобразования документов в формате PDF для отправки текстовых сообщений. Это работает, по большей части, но одна вещь, которой я желаю ему, сделала должен был вставить пустые строки между отдельными абзацами вместо того, чтобы делать пюре из них вместе.

Там путь состоит в том, чтобы заставить pdftotext делать это? И в противном случае там другой PDF должен написать утилиту, которая может сделать это?

Question 2

Вы могли попробовать ebook-convert от Калибра.

В любом случае я сказал бы, что это допускает ошибку в другом направлении: слишком много разрывов строки.

Другая вещь, которую я определенно рассмотрел бы, хотя преобразовывает в HTML с помощью pdfreflow и затем преобразовывают HTML в TXT.

Question 3

Question 4

Если у Вас есть учетная запись Google, можно использовать Google Docs, чтобы загрузить PDF и преобразовать ее в доступный для редактирования текст.

Question 5

При использовании pdftotext, можно использовать -layout отметьте для сохранения расположения текста на страницах во входе файл PDF:

pdftotext -layout input.pdf output.txt

Question 6

Как вентилятор открытого исходного кода (и автоматизация) я очень не хочу сказать это, но лучшие результаты, которые я просто получил (на вполне большом, сложном PDF) должны были открыть его в Adobe Reader, затем выбрать File|Save As Text.

(Я предварительно обрабатываю для экспериментов анализа текста, не как читатель, но я думаю, что моим первым и вторым выбором было бы то же.)

Я сравнивал вывод бок о бок. Моим вторым выбором является преобразование электронная книга.

Adobe: оставленный в FF для разрывов страницы, оставленных в номерах страниц, не преобразовал заголовки/абзацы в одни строки, но он зафиксировал дефисы. Спам, который был скрыт в PDF, не стал произведенным. Правильно получил большие прописные буквы в начале разделов, например, не "T он" или даже "T он".

преобразуйте электронная книга: Оставленный в номерах страниц и некотором скрытом спаме в заголовке/нижнем колонтитуле (но никакой FFs). Преобразовывает большинство абзацев, чтобы быть одними строками. Те, которых это скучало, с двумя пробелами хотя! Маркеры не всегда выстраиваются в линию с текстом. Правильно добрался в начале главы.

pdftotext (без - расположение): Не плохо, маркеры выстраиваются в линию, но шум заголовка/нижнего колонтитула. FFs там. Дефисы удалены. Худший для запуска главы большие буквы: "T\n\nhe".

pdftotext (с - расположение): Подобный, но больше отступов. "T он" для запуска главы.

pdftohtml>> pdfreflow>> htmltotext: Это удалило номера страниц, но все еще выбросьте в заголовке/нижнем колонтитуле. "T он" для запуска главы. Дефисы удалены. (Это использует несколько строк на абзац, все же они не те же разрывы строки как в других версиях!)

Question 7

Question 8

Я также попробовал pypdf и сравнил его с pdftotext на двух документах. Это имело больше разрывов строки и разделяло некоторые имена раздела (ССЫЛКИ был R E F E R E N C E S).

pdf2txt действительно производил полный мусор.

Я часто использую pdfBox (Java), если pdftotext завинчивает вывод. Вы могли бы дать ему попытку.

frabjous · Accepted Answer · 22 November 2019 в 23:34

Вы могли попробовать ebook-convert от Калибра.

В любом случае я сказал бы, что это допускает ошибку в другом направлении: слишком много разрывов строки.

Другая вещь, которую я определенно рассмотрел бы, хотя преобразовывает в HTML с помощью pdfreflow и затем преобразовывают HTML в TXT.

Stefan Schmidt · Answer 2 · 22 November 2019 в 23:34

Если у Вас есть учетная запись Google, можно использовать Google Docs, чтобы загрузить PDF и преобразовать ее в доступный для редактирования текст.

Kamil Slowikowski · Answer 3 · 22 November 2019 в 23:34

При использовании pdftotext, можно использовать -layout отметьте для сохранения расположения текста на страницах во входе файл PDF:

pdftotext -layout input.pdf output.txt

JinSnow · Answer 4 · 22 November 2019 в 23:34