Преобразование DJVU к PDF

Question 1

Я хочу преобразовать документ DJVU в документ в формате PDF, отделяясь и сохраняя текстовый слой и изображения, также сохраняя структуру от DJVU. Как я могу сделать это в Ubuntu?

(Я буду затем использовать Калибр для преобразования в ePub/Mobi, поэтому если бы был плагин Калибра для этого всего процесса, который идеально подошел бы для меня!)

Note1: Печать от Проявляет, экспортируя из DJview, или что-либо с помощью пакета ddjvu, не верные решения, поскольку они отбрасывают текстовый слой, сохранение только отображает.

Note2: Используя DJVULibre, кажется, только извлекает текстовый слой, и изображения не извлечены. Точно так же копирование текста "вручную" проигрывает и структура документа и изображения.

Question 2

Используя DJVULibre, можно извлечь текстовый слой через terminal команда:

djvutxt myfile.djvu > myfile-ocr.txt или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(и сделайте то же самое, и были найдены здесь),

Форматирование требует некоторого усилия (поскольку много символов не преобразовываются правильно), и изображения не восстанавливаются.

Question 3

Question 4

Существует djvu2pdf, но он полагается на ghostscript, таким образом, это мог бы быть другой параметр печати. Я все еще предлагаю, чтобы Вы посмотрели на него, на всякий случай это более умно, чем я даю ему кредит.

Это не находится в repos, но можно загрузить deb с сайта производителей: http://0x2a.at/s/projects/djvu2pdf

** Вставьте обязательное уведомление о загрузке/установке вещей снаружи repos здесь **

Question 5

Метод 1

Просто используйте DJView и экспорт как PDF

Goto синаптический диспетчер пакетов
Установка DJview4
Выполненный DJview (приложения - графика - DJView4)
Откройте свой .djvu документ
: Меню - экспорт как: PDF

Метод 2

Откройтесь djvu файл в проявляют
Выберите печать----> печать в файл
измените .ps на .pdf и нажмите печать

Метод 3

Goto синаптический диспетчер пакетов
Установка

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Терминал Goto и запись
```
 sudo apt-get install libtiff-tools
```
Goto каталог, где djvu файл присутствует. Щелкните правой кнопкой мыши. Опция “Open In Terminal” Goto. Нажмите на него. Терминал откроется.

В той терминальной записи

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Метод 4

Существует также преобразователь онлайн DjVu к преобразователю PDF

Question 6

Вот один путь, который потребовал бы некоторых не так общие инструменты:

ocrodjvu
pdfbeads, это имеет свои собственные требования, которые могут быть найдены Google

Мы можем использовать djvu2hocr команда (от ocrodjvu пакет) извлечь слой скрытого текста из файла DjVu (это не делает никакого OCR или подобный, это просто, извлекает текстовый слой с геометрией), т.е.:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed вмешательство исправляет имена классов в выводе hOCR (который является просто простым файлом HTML),

Теперь мы извлекаем страницу DjVu к формату TIFF с:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

так, чтобы мы закончили ими, регистрируют в папке работы:

sample.djvu
pg10.html
pg10.tif

Это то, где pdfbeads прибывает в игру, и мы простой выполняемся:

pdfbeads -o pg10.pdf

затем эта изящная программа заботится обо всем, что это в этой папке (HTML и файлы TIFF с тем же базовым именем) и производит, производит файл PDF с некоторыми побочными продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

который идентичен для ввода файла DjVu и имеет текстовый слой внутри:

enter image description here

Сводка комментариев:

Длинные комментарии ниже обсуждают представляющие меньшие изображения от страницы документа DjVu как отдельные объекты, которая не легко возможна, потому что страница документа DjVu является самостоятельно просто единственным изображением с дополнительным текстовым слоем без "информации" о меньших изображениях как отдельные объекты. Если документ DjVu будет иметь цветные изображения, то они будут обычно размещаться в фоновый слой; в этом случае пользователь может использовать в своих интересах инструменты как ddjvu (извлеките только фоновый слой), и imagemagick (автообрезка) для вывода просто изображений вместо этого целый холст но это не может быть автоматизировано для создания вывода PDF

Другой более нормальный, но более медленный подход является использованием обычных инструментов OCR GUI. gscan2pdf (> 1.0), предлагается в качестве возможного кандидата на Linux ПК

Question 7

Question 8

http://www.djvu-pdf.com/ - Используя этот веб-сайт можно преобразовать djvu в PDF.

Question 9

Самый легкий путь: используйте gscan2pdf, чтобы импортировать djvu, затем OCR это с tesseract, и наконец сохранить его как PDF. Текст OCR'd в PDF мог бы немного отличаться от исходного djvu, и преобразование может требовать времени, но этот метод является легкой задачей, и это работает.

Question 10

Я сделал сценарий ответа @zetah.

Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

hayd · Answer 1 · 23 November 2019 в 00:12

Используя DJVULibre, можно извлечь текстовый слой через terminal команда:

djvutxt myfile.djvu > myfile-ocr.txt или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(и сделайте то же самое, и были найдены здесь),

Форматирование требует некоторого усилия (поскольку много символов не преобразовываются правильно), и изображения не восстанавливаются.

Oli · Answer 2 · 23 November 2019 в 00:12

Существует djvu2pdf, но он полагается на ghostscript, таким образом, это мог бы быть другой параметр печати. Я все еще предлагаю, чтобы Вы посмотрели на него, на всякий случай это более умно, чем я даю ему кредит.

Это не находится в repos, но можно загрузить deb с сайта производителей: http://0x2a.at/s/projects/djvu2pdf

** Вставьте обязательное уведомление о загрузке/установке вещей снаружи repos здесь **

Ashu · Answer 3 · 23 November 2019 в 00:12

Метод 1

Просто используйте DJView и экспорт как PDF

Goto синаптический диспетчер пакетов
Установка DJview4
Выполненный DJview (приложения - графика - DJView4)
Откройте свой .djvu документ
: Меню - экспорт как: PDF

Метод 2

Откройтесь djvu файл в проявляют
Выберите печать----> печать в файл
измените .ps на .pdf и нажмите печать

Метод 3

Goto синаптический диспетчер пакетов
Установка

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Терминал Goto и запись
```
 sudo apt-get install libtiff-tools
```
Goto каталог, где djvu файл присутствует. Щелкните правой кнопкой мыши. Опция “Open In Terminal” Goto. Нажмите на него. Терминал откроется.

В той терминальной записи

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Метод 4

Существует также преобразователь онлайн DjVu к преобразователю PDF

zetah · Answer 4 · 23 November 2019 в 00:12

Вот один путь, который потребовал бы некоторых не так общие инструменты:

ocrodjvu
pdfbeads, это имеет свои собственные требования, которые могут быть найдены Google

Мы можем использовать djvu2hocr команда (от ocrodjvu пакет) извлечь слой скрытого текста из файла DjVu (это не делает никакого OCR или подобный, это просто, извлекает текстовый слой с геометрией), т.е.:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed вмешательство исправляет имена классов в выводе hOCR (который является просто простым файлом HTML),

Теперь мы извлекаем страницу DjVu к формату TIFF с:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

так, чтобы мы закончили ими, регистрируют в папке работы:

sample.djvu
pg10.html
pg10.tif

Это то, где pdfbeads прибывает в игру, и мы простой выполняемся:

pdfbeads -o pg10.pdf

затем эта изящная программа заботится обо всем, что это в этой папке (HTML и файлы TIFF с тем же базовым именем) и производит, производит файл PDF с некоторыми побочными продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

который идентичен для ввода файла DjVu и имеет текстовый слой внутри:

enter image description here

Сводка комментариев:

Длинные комментарии ниже обсуждают представляющие меньшие изображения от страницы документа DjVu как отдельные объекты, которая не легко возможна, потому что страница документа DjVu является самостоятельно просто единственным изображением с дополнительным текстовым слоем без "информации" о меньших изображениях как отдельные объекты. Если документ DjVu будет иметь цветные изображения, то они будут обычно размещаться в фоновый слой; в этом случае пользователь может использовать в своих интересах инструменты как ddjvu (извлеките только фоновый слой), и imagemagick (автообрезка) для вывода просто изображений вместо этого целый холст но это не может быть автоматизировано для создания вывода PDF

Другой более нормальный, но более медленный подход является использованием обычных инструментов OCR GUI. gscan2pdf (> 1.0), предлагается в качестве возможного кандидата на Linux ПК

Curious Apprentice · Answer 5 · 23 November 2019 в 00:12

http://www.djvu-pdf.com/ - Используя этот веб-сайт можно преобразовать djvu в PDF.

0

ответ дан Curious Apprentice 23 November 2019 в 00:12

NGRhodes · Answer 6 · 23 November 2019 в 00:12

Самый легкий путь: используйте gscan2pdf, чтобы импортировать djvu, затем OCR это с tesseract, и наконец сохранить его как PDF. Текст OCR'd в PDF мог бы немного отличаться от исходного djvu, и преобразование может требовать времени, но этот метод является легкой задачей, и это работает.

matthieu · Answer 7 · 23 November 2019 в 00:12

Я сделал сценарий ответа @zetah.

Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

0

ответ дан matthieu 23 November 2019 в 00:12

Преобразование DJVU к PDF

7 ответов

Метод 1

Метод 2

Метод 3

Метод 4

Другие вопросы по тегам:

Похожие вопросы: