преобразование djvu к PDF беспокоится с этим кодом сохранения OCR

Я хочу преобразовать djvu в PDF при сохранении OCR. Эта страница описывает, как сделать так, но я получаю пустой файл HTML.

В/home/steven/Documents/djvu2pdf/1/, djvu2hocr -p 1 Intro.djvu дает мне:

Converting 'Intro.djvu':
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  <meta name="ocr-system" content="djvu2hocr 0.7.9" />
  <meta name="ocr-capabilities" content="ocr_carea ocr_page ocr_par ocrx_block ocrx_line ocrx_word" />
  <title>DjVu hidden text layer</title>
</head>
<body>
*** [1-11711] Failed to open 'Intro.djvu': No such file or directory.
*** (ByteStream.cpp:693)
*** 'DJVU::GUTF8String DJVU::ByteStream::Stdio::init(const DJVU::GURL&, const char*)'


</body>
</html>
Traceback (most recent call last):
  File "/usr/bin/djvu2hocr", line 7, in <module>
    _.main(sys.argv)
  File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 325, in main
    djvused.wait()
  File "/usr/share/ocrodjvu/lib/ipc.py", line 114, in wait
    raise CalledProcessError(return_code, self.__command)
subprocess.CalledProcessError: Command 'djvused' returned non-zero exit status 10

продвижение в пустой файл HTML, поэтому когда я работаю

sed 's/ocrx/ocr/g' > pg1.html

это просто работает на неопределенном цикле.

У меня также есть вторичная программа, названная djvu2pdf, который я нашел по http://0x2a.at/s/projects/djvu2pdf, но

djvu2pdf Intro.djvu

дает мне

-e Error: /usr/bin/djvu2pdf: File 'Intro.djvu' not found

Файл OCR открывается прекрасный.

1
задан 13 April 2017 в 15:24

2 ответа

Я исправил файл /home/steven/Documents/djvu2pdf/1/Intro.djvu. Оказывается, все мои djvu-файлы не имели расширений, но в любом случае linux открывал их.

Тестирование с помощью одностраничного документа.

Сначала я запустил cd /home/steven/Documents/djvu2pdf/1/

Затем запустил: djvu2hocr -p 1 1.djvu

DjVu hidden text layer - Page #1 Traceback (most recent call last): File "/usr/bin/djvu2hocr", line 7, in _.main(sys.argv) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 323, in main process_page(page_zone, options) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 263, in process_page result = process_zone(None, page_text, last=True, options=options) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 238, in process_zone parent.append(child) AttributeError: 'NoneType' object has no attribute 'append'

Команда : djvu2hocr -p 1 1.djvu > tmp.html сделал то же самое Converting '1.djvu': - Page #1 Traceback (most recent call last): File "/usr/bin/djvu2hocr", line 7, in _.main(sys.argv) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 323, in main process_page(page_zone, options) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 263, in process_page result = process_zone(None, page_text, last=True, options=options) File "/usr/share/ocrodjvu/lib/cli/djvu2hocr.py", line 238, in process_zone parent.append(child) AttributeError: 'NoneType' object has no attribute 'append'

sed 's/ocrx/ocr/g' tmp.html > pg1.html

Я получил html & amp; tmp.html, сказав это

http://pastebin.com/APwUPwk4

Пришлось публиковать его там б / к по какой-то нелепой причине, которую этот сайт не допустит мне опубликовать этот код, используя HTML, код, предварительные теги, ни один из них не работал. Что же такое канал, тем более, где я пропустил его в этом посте? Я новичок в терминале в Linux, просто учусь с помощью поисков Google

0
ответ дан 13 April 2017 в 15:24

Сначала попробуйте запустить программу с полным путем к файлу. Выполните следующую команду, чтобы убедиться, что ваш файл существует

file /home/steven/Documents/djvu2pdf/1/Intro.djvu

, а затем попробуйте

djvu2hocr -p 1 /home/steven/Documents/djvu2pdf/1/Intro.djvu

Во-вторых, существует проблема с самой следующей командой:

[ 112]

Это не будет выполняться "в бесконечном цикле", а будет просто ждать стандартного ввода (клавиатура в вашем случае), так как вы не запускаете sed с аргументом или как часть конвейера. sed не знает, какой файл вы хотите обработать.

На странице, на которую вы ссылаетесь, четко указано, что вы должны запускать ее как часть конвейера. Кроме того, вы можете сделать это следующим образом:

 djvu2hocr -p 10 /home/steven/Documents/djvu2pdf/1/Intro.djvu > tmp.html
 sed 's/ocrx/ocr/g' tmp.html > pg10.html
0
ответ дан 13 April 2017 в 15:24

Другие вопросы по тегам:

Похожие вопросы: