Добавление информации OCR в PDF-файл

Поскольку вы точно не знаете, какую часть Linux вы хотите изучить, мне сложно точно знать, что рекомендовать. Если вы ищете Linux в общем Linux в двух словах, это довольно хорошо: http://www.amazon.com/Linux-Nutshell-Ellen-Siever/dp/0596154488/ref=pd_sim_b_5 Кроме того, если вас интересует ядро Linux и, возможно, как скомпилировать одно ядро ​​Linux в двух словах: http://www.amazon.com/Linux-Kernel-Nutshell-OReilly/dp/0596100795/ref=sr_1_1?ie=UTF8&s=books& qid = 1287625440 & amp; sr = 1-1 Если вы ищете внутреннюю работу Google, вы можете честно получить хорошую сумму в Интернете без книг. Например: http://www.linuxnewbieguide.org/content/chapter-1-what-linux Или они для более полных тем: http://lotphelp.com/lotp/tour-linux-filesystem http: // lotphelp. com / lotp / workings-linux-kernel Поиск в Google может выявить тысячи сайтов, а также такие книги. Удачи вам в учебе!

23
задан 7 June 2012 в 15:19

43 ответа

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 7 August 2018 в 18:20

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 7 August 2018 в 18:20

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 7 August 2018 в 18:20

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 10 August 2018 в 07:04

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 10 August 2018 в 07:04

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 10 August 2018 в 07:04

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 10 August 2018 в 07:04

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 10 August 2018 в 07:04

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 15 August 2018 в 19:03
  • 1
    У меня были отличные результаты с вашим скриптом. В отличие от pdfocr от Geza Kovacs, он не требует каких-либо дополнительных (трудно компилируемых в некоторых дистрибутивах Linux!) Библиотек. Спасибо! – Maxim 3 May 2018 в 18:04

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 15 August 2018 в 19:03

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 15 August 2018 в 19:03
  • 1
    Гитуб здесь: github.com/gkovacs/pdfocr . Но это имеет ту же проблему, что и pdfsandwich, поскольку она изменяет / сжимает PDF-файлы, содержащие изображения с высоким разрешением, в основном уничтожая часть исходной информации об изображении. – jmiserez 21 March 2015 в 22:31

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 15 August 2018 в 19:03

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 15 August 2018 в 19:03
  • 1
    Это действительно здорово, спасибо. Однако, похоже, он изменяет изображения, выглядит так, будто на них накладывается нерезкая маска или что-то в этом роде. Есть ли способ оставить изображения точно так же, как раньше? В моем конкретном случае фильтр даже удалил панель из нескольких фракций в некоторых уравнениях. Все остальное работает очень хорошо, хотя ... – naught101 9 February 2015 в 06:47
  • 2
    Плохой пакет качества: `Результаты проверки Lintian для /tmp/pdfsandwich_0.1.3_amd64.deb: E: pdfsandwich: control-file-have-bad-permissions md5sums 0664! = 0644 E: pdfsandwich: control-file-has-bad-owner md5sums james / james! = root / root E: pdfsandwich: wrong-file-owner-uid-or-gid usr / 1000/1000 E: pdfsandwich: wrong-file-owner-uid-or-gid usr / bin / 1000 / 1000 E: pdfsandwich: wrong-file-owner-uid-or-gid usr / bin / pdfsandwich ... – A.B. 22 April 2015 в 08:55
  • 3
    Загрузите последнюю версию deb из SF . Если вы получите ошибку в конце, это может быть связано с ghostscript (v0.1.4). Теперь v0.1.6 использует pdfunite. – Pablo Bianchi 10 March 2017 в 01:46
  • 4
    @PabloBianchi Есть ли способ ручной корректуры текста OCRed с помощью pdfsandwitch? Я делаю это с некоторыми шведскими документами, и он работает хорошо, за исключением некоторых орфографических ошибок (вероятно, из-за шрифта оригинала), которые было бы легко исправить, если бы это был текстовый файл, но как я могу это сделать в полученном PDF-файле ? – zrajm 20 June 2017 в 18:44
  • 5
    @zrajm вы можете использовать некоторые параметры pdfsandwich для лучшего распознавания на этапе OCR. Чтобы редактировать скрытый текст за изображением PDF, вы можете просто отредактировать слой текстовых полей с помощью LibreOffice Draw, Inkscape или любого инструмента редактирования PDF. Если вы найдете лучший способ, разместите его здесь. DaH jImej! – Pablo Bianchi 21 June 2017 в 21:40

Другие вопросы по тегам:

Похожие вопросы: