Преобразование DJVU к PDF

Я хочу преобразовать документ DJVU в документ в формате PDF, отделяясь и сохраняя текстовый слой и изображения, также сохраняя структуру от DJVU. Как я могу сделать это в Ubuntu?

(Я буду затем использовать Калибр для преобразования в ePub/Mobi, поэтому если бы был плагин Калибра для этого всего процесса, который идеально подошел бы для меня!)

Note1: Печать от Проявляет, экспортируя из DJview, или что-либо с помощью пакета ddjvu, не верные решения, поскольку они отбрасывают текстовый слой, сохранение только отображает.

Note2: Используя DJVULibre, кажется, только извлекает текстовый слой, и изображения не извлечены. Точно так же копирование текста "вручную" проигрывает и структура документа и изображения.

39
задан 13 April 2017 в 05:25

7 ответов

Используя DJVULibre, можно извлечь текстовый слой через terminal команда:

djvutxt myfile.djvu > myfile-ocr.txt или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(и сделайте то же самое, и были найдены здесь),

Форматирование требует некоторого усилия (поскольку много символов не преобразовываются правильно), и изображения не восстанавливаются.

4
ответ дан 23 November 2019 в 00:12

Существует djvu2pdf, но он полагается на ghostscript, таким образом, это мог бы быть другой параметр печати. Я все еще предлагаю, чтобы Вы посмотрели на него, на всякий случай это более умно, чем я даю ему кредит.

Это не находится в repos, но можно загрузить deb с сайта производителей: http://0x2a.at/s/projects/djvu2pdf

** Вставьте обязательное уведомление о загрузке/установке вещей снаружи repos здесь **

4
ответ дан 23 November 2019 в 00:12

Метод 1

Просто используйте DJView и экспорт как PDF

  1. Goto синаптический диспетчер пакетов
  2. Установка DJview4
  3. Выполненный DJview (приложения - графика - DJView4)
  4. Откройте свой .djvu документ
  5. : Меню - экспорт как: PDF

Метод 2

Откройтесь djvu файл в проявляют
Выберите печать----> печать в файл
измените .ps на .pdf и нажмите печать

Метод 3

  1. Goto синаптический диспетчер пакетов
  2. Установка

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Терминал Goto и запись

     sudo apt-get install libtiff-tools
    
  4. Goto каталог, где djvu файл присутствует. Щелкните правой кнопкой мыши. Опция “Open In Terminal” Goto. Нажмите на него. Терминал откроется.

  5. В той терминальной записи

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Метод 4

Существует также преобразователь онлайн DjVu к преобразователю PDF

37
ответ дан 23 November 2019 в 00:12

Вот один путь, который потребовал бы некоторых не так общие инструменты:

  1. ocrodjvu
  2. pdfbeads, это имеет свои собственные требования, которые могут быть найдены Google

Мы можем использовать djvu2hocr команда (от ocrodjvu пакет) извлечь слой скрытого текста из файла DjVu (это не делает никакого OCR или подобный, это просто, извлекает текстовый слой с геометрией), т.е.:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed вмешательство исправляет имена классов в выводе hOCR (который является просто простым файлом HTML),

Теперь мы извлекаем страницу DjVu к формату TIFF с:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

так, чтобы мы закончили ими, регистрируют в папке работы:

sample.djvu
pg10.html
pg10.tif

Это то, где pdfbeads прибывает в игру, и мы простой выполняемся:

pdfbeads -o pg10.pdf

затем эта изящная программа заботится обо всем, что это в этой папке (HTML и файлы TIFF с тем же базовым именем) и производит, производит файл PDF с некоторыми побочными продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

который идентичен для ввода файла DjVu и имеет текстовый слой внутри:

enter image description here

Сводка комментариев:

Длинные комментарии ниже обсуждают представляющие меньшие изображения от страницы документа DjVu как отдельные объекты, которая не легко возможна, потому что страница документа DjVu является самостоятельно просто единственным изображением с дополнительным текстовым слоем без "информации" о меньших изображениях как отдельные объекты. Если документ DjVu будет иметь цветные изображения, то они будут обычно размещаться в фоновый слой; в этом случае пользователь может использовать в своих интересах инструменты как ddjvu (извлеките только фоновый слой), и imagemagick (автообрезка) для вывода просто изображений вместо этого целый холст но это не может быть автоматизировано для создания вывода PDF

Другой более нормальный, но более медленный подход является использованием обычных инструментов OCR GUI. gscan2pdf (> 1.0), предлагается в качестве возможного кандидата на Linux ПК

17
ответ дан 23 November 2019 в 00:12

http://www.djvu-pdf.com/ - Используя этот веб-сайт можно преобразовать djvu в PDF.

0
ответ дан 23 November 2019 в 00:12

Самый легкий путь: используйте gscan2pdf, чтобы импортировать djvu, затем OCR это с tesseract, и наконец сохранить его как PDF. Текст OCR'd в PDF мог бы немного отличаться от исходного djvu, и преобразование может требовать времени, но этот метод является легкой задачей, и это работает.

0
ответ дан 23 November 2019 в 00:12

Я сделал сценарий ответа @zetah.

Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

0
ответ дан 23 November 2019 в 00:12

Другие вопросы по тегам:

Похожие вопросы: