PDF в XML, конечно, вещь, но наоборот?

Это мой первый пост, так что извините, если я нарушаю какие-либо соглашения.

Дело в том, что я разрабатываю долгосрочную систему архивирования в среде Ubuntu. По разным причинам XML является очень сильным форматом для долгосрочного архивирования, и сегодня на рынке существует множество систем, предлагающих функции экспорта в формат XML.

Сам по себе формат XML не содержит графической информации о том, как выглядит, например, файл PDF, только письменная информация и встроенные изображения, которые он когда-то содержал.

Таким образом, учитывая, что у меня есть определенный PDF-файл, можно сократить его до XML, а затем перестроить его снова в PDF-файл, каким он был когда-то - по крайней мере, в теории.

В Linux вы можете сделать это из CLI с помощью XSLTPROC и FOP в два этапа.

  1. xsltproc file.xsl file.xml> file.fo
  2. fop file.fo file.pdf

Абсолютно важный файл здесь - если вы хотите восстановить это просто так, как это было - это XSL-файл.

Я нашел сотни постов, обсуждающих, как создавать XSL-файлы вручную, но НИКАКИХ о любом программном обеспечении, которое могло бы анализировать XSL-структуру PDF-файла.

Я просто считаю, что если возможно преобразовать XML-XSL-FO-PDF, то возможно ли сделать этот процесс в обратном направлении? У кого-нибудь есть идеи?

Пол

3
задан 20 August 2012 в 21:00

1 ответ

PDFs не хранят или используют информацию XSLT - они - совершенно другой формат языка разметки, который не имеет сильного подразделения между форматированием и содержанием как XML/XSL.

причина Вы не нашли, что любой автоматический способ преобразовать от PDF до XML/XSL состоит в том, потому что это зависело бы в большой степени от определенных файлов и форматирующий быть используемым, и таким образом, будет почти невозможно записать что-то универсальное, которое на самом деле работало.

Ваш лучший выбор состоял бы в том, чтобы извлечь текстовое содержание из файлов PDF с помощью чего-то как pstotext, затем записать пользовательский сценарий для создания XML-файла из того, что соответствует оригиналу. Это по существу было бы одноразовым решением, и будет довольно хрупко и подвержено поломке.

А лучше решение состояло бы в том, чтобы просто заархивировать PDFs.

2
ответ дан 20 August 2012 в 21:00

Другие вопросы по тегам:

Похожие вопросы: