Я хочу преобразовать документ DJVU в документ в формате PDF, отделяясь и сохраняя текстовый слой и изображения, также сохраняя структуру от DJVU. Как я могу сделать это в Ubuntu?
(Я буду затем использовать Калибр для преобразования в ePub/Mobi, поэтому если бы был плагин Калибра для этого всего процесса, который идеально подошел бы для меня!)
Note1: Печать от Проявляет, экспортируя из DJview, или что-либо с помощью пакета ddjvu, не верные решения, поскольку они отбрасывают текстовый слой, сохранение только отображает.
Note2: Используя DJVULibre, кажется, только извлекает текстовый слой, и изображения не извлечены. Точно так же копирование текста "вручную" проигрывает и структура документа и изображения.
Используя DJVULibre, можно извлечь текстовый слой через terminal
команда:
djvutxt myfile.djvu > myfile-ocr.txt
или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(и сделайте то же самое, и были найдены здесь),
Форматирование требует некоторого усилия (поскольку много символов не преобразовываются правильно), и изображения не восстанавливаются.
Существует djvu2pdf, но он полагается на ghostscript, таким образом, это мог бы быть другой параметр печати. Я все еще предлагаю, чтобы Вы посмотрели на него, на всякий случай это более умно, чем я даю ему кредит.
Это не находится в repos, но можно загрузить deb с сайта производителей: http://0x2a.at/s/projects/djvu2pdf
** Вставьте обязательное уведомление о загрузке/установке вещей снаружи repos здесь **
Просто используйте DJView и экспорт как PDF
Откройтесь djvu файл в проявляют
Выберите печать----> печать в файл
измените .ps на .pdf и нажмите печать
Установка
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Терминал Goto и запись
sudo apt-get install libtiff-tools
Goto каталог, где djvu файл присутствует. Щелкните правой кнопкой мыши. Опция “Open In Terminal” Goto. Нажмите на него. Терминал откроется.
В той терминальной записи
ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff
Существует также преобразователь онлайн DjVu к преобразователю PDF
Вот один путь, который потребовал бы некоторых не так общие инструменты:
Мы можем использовать djvu2hocr
команда (от ocrodjvu
пакет) извлечь слой скрытого текста из файла DjVu (это не делает никакого OCR или подобный, это просто, извлекает текстовый слой с геометрией), т.е.:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
вмешательство исправляет имена классов в выводе hOCR (который является просто простым файлом HTML),
Теперь мы извлекаем страницу DjVu к формату TIFF с:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
так, чтобы мы закончили ими, регистрируют в папке работы:
sample.djvu
pg10.html
pg10.tif
Это то, где pdfbeads
прибывает в игру, и мы простой выполняемся:
pdfbeads -o pg10.pdf
затем эта изящная программа заботится обо всем, что это в этой папке (HTML и файлы TIFF с тем же базовым именем) и производит, производит файл PDF с некоторыми побочными продуктами:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
который идентичен для ввода файла DjVu и имеет текстовый слой внутри:
Сводка комментариев:
Длинные комментарии ниже обсуждают представляющие меньшие изображения от страницы документа DjVu как отдельные объекты, которая не легко возможна, потому что страница документа DjVu является самостоятельно просто единственным изображением с дополнительным текстовым слоем без "информации" о меньших изображениях как отдельные объекты. Если документ DjVu будет иметь цветные изображения, то они будут обычно размещаться в фоновый слой; в этом случае пользователь может использовать в своих интересах инструменты как ddjvu
(извлеките только фоновый слой), и imagemagick
(автообрезка) для вывода просто изображений вместо этого целый холст но это не может быть автоматизировано для создания вывода PDF
Другой более нормальный, но более медленный подход является использованием обычных инструментов OCR GUI. gscan2pdf
(> 1.0), предлагается в качестве возможного кандидата на Linux ПК
http://www.djvu-pdf.com/ - Используя этот веб-сайт можно преобразовать djvu в PDF.
Самый легкий путь: используйте gscan2pdf, чтобы импортировать djvu, затем OCR это с tesseract, и наконец сохранить его как PDF. Текст OCR'd в PDF мог бы немного отличаться от исходного djvu, и преобразование может требовать времени, но этот метод является легкой задачей, и это работает.
Я сделал сценарий ответа @zetah.
Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b