Это мой первый пост, так что извините, если я нарушаю какие-либо соглашения.
Дело в том, что я разрабатываю долгосрочную систему архивирования в среде Ubuntu. По разным причинам XML является очень сильным форматом для долгосрочного архивирования, и сегодня на рынке существует множество систем, предлагающих функции экспорта в формат XML.
Сам по себе формат XML не содержит графической информации о том, как выглядит, например, файл PDF, только письменная информация и встроенные изображения, которые он когда-то содержал.
Таким образом, учитывая, что у меня есть определенный PDF-файл, можно сократить его до XML, а затем перестроить его снова в PDF-файл, каким он был когда-то - по крайней мере, в теории.
В Linux вы можете сделать это из CLI с помощью XSLTPROC и FOP в два этапа.
Абсолютно важный файл здесь - если вы хотите восстановить это просто так, как это было - это XSL-файл.
Я нашел сотни постов, обсуждающих, как создавать XSL-файлы вручную, но НИКАКИХ о любом программном обеспечении, которое могло бы анализировать XSL-структуру PDF-файла.
Я просто считаю, что если возможно преобразовать XML-XSL-FO-PDF, то возможно ли сделать этот процесс в обратном направлении? У кого-нибудь есть идеи?
Пол
PDFs не хранят или используют информацию XSLT - они - совершенно другой формат языка разметки, который не имеет сильного подразделения между форматированием и содержанием как XML/XSL.
причина Вы не нашли, что любой автоматический способ преобразовать от PDF до XML/XSL состоит в том, потому что это зависело бы в большой степени от определенных файлов и форматирующий быть используемым, и таким образом, будет почти невозможно записать что-то универсальное, которое на самом деле работало.
Ваш лучший выбор состоял бы в том, чтобы извлечь текстовое содержание из файлов PDF с помощью чего-то как pstotext, затем записать пользовательский сценарий для создания XML-файла из того, что соответствует оригиналу. Это по существу было бы одноразовым решением, и будет довольно хрупко и подвержено поломке.
А лучше решение состояло бы в том, чтобы просто заархивировать PDFs.