Добавление информации OCR в PDF-файл

Question 1

Поскольку вы точно не знаете, какую часть Linux вы хотите изучить, мне сложно точно знать, что рекомендовать. Если вы ищете Linux в общем Linux в двух словах, это довольно хорошо: http://www.amazon.com/Linux-Nutshell-Ellen-Siever/dp/0596154488/ref=pd_sim_b_5 Кроме того, если вас интересует ядро Linux и, возможно, как скомпилировать одно ядро Linux в двух словах: http://www.amazon.com/Linux-Kernel-Nutshell-OReilly/dp/0596100795/ref=sr_1_1?ie=UTF8&s=books& qid = 1287625440 & amp; sr = 1-1 Если вы ищете внутреннюю работу Google, вы можете честно получить хорошую сумму в Интернете без книг. Например: http://www.linuxnewbieguide.org/content/chapter-1-what-linux Или они для более полных тем: http://lotphelp.com/lotp/tour-linux-filesystem http: // lotphelp. com / lotp / workings-linux-kernel Поиск в Google может выявить тысячи сайтов, а также такие книги. Удачи вам в учебе!

Question 2

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 3

Question 4

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 5

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 6

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 7

Question 8

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 9

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 10

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 11

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 12

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 13

Question 14

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 15

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 16

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 17

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Robert Citek · Answer 1 · 7 August 2018 в 18:20

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Ashwin Nanjappa · Answer 2 · 7 August 2018 в 18:20

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 7 August 2018 в 18:20

Pablo Bianchi · Answer 3 · 7 August 2018 в 18:20

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

To Do · Answer 4 · 10 August 2018 в 07:04

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

user127022 · Answer 5 · 10 August 2018 в 07:04

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 6 · 10 August 2018 в 07:04

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Ashwin Nanjappa · Answer 7 · 10 August 2018 в 07:04

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 10 August 2018 в 07:04

Pablo Bianchi · Answer 8 · 10 August 2018 в 07:04

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

user127022 · Answer 9 · 15 August 2018 в 19:03

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1

ответ дан user127022 15 August 2018 в 19:03

1

У меня были отличные результаты с вашим скриптом. В отличие от pdfocr от Geza Kovacs, он не требует каких-либо дополнительных (трудно компилируемых в некоторых дистрибутивах Linux!) Библиотек. Спасибо! – Maxim 3 May 2018 в 18:04

To Do · Answer 10 · 15 August 2018 в 19:03

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Robert Citek · Answer 11 · 15 August 2018 в 19:03

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2

ответ дан Robert Citek 15 August 2018 в 19:03

1

Гитуб здесь: github.com/gkovacs/pdfocr . Но это имеет ту же проблему, что и pdfsandwich, поскольку она изменяет / сжимает PDF-файлы, содержащие изображения с высоким разрешением, в основном уничтожая часть исходной информации об изображении. – jmiserez 21 March 2015 в 22:31

Ashwin Nanjappa · Answer 12 · 15 August 2018 в 19:03

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 15 August 2018 в 19:03

Pablo Bianchi · Answer 13 · 15 August 2018 в 19:03

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14

ответ дан Pablo Bianchi 15 August 2018 в 19:03

1

Это действительно здорово, спасибо. Однако, похоже, он изменяет изображения, выглядит так, будто на них накладывается нерезкая маска или что-то в этом роде. Есть ли способ оставить изображения точно так же, как раньше? В моем конкретном случае фильтр даже удалил панель из нескольких фракций в некоторых уравнениях. Все остальное работает очень хорошо, хотя ... – naught101 9 February 2015 в 06:47
2

Плохой пакет качества: `Результаты проверки Lintian для /tmp/pdfsandwich_0.1.3_amd64.deb: E: pdfsandwich: control-file-have-bad-permissions md5sums 0664! = 0644 E: pdfsandwich: control-file-has-bad-owner md5sums james / james! = root / root E: pdfsandwich: wrong-file-owner-uid-or-gid usr / 1000/1000 E: pdfsandwich: wrong-file-owner-uid-or-gid usr / bin / 1000 / 1000 E: pdfsandwich: wrong-file-owner-uid-or-gid usr / bin / pdfsandwich ... – A.B. 22 April 2015 в 08:55
3

Загрузите последнюю версию deb из SF . Если вы получите ошибку в конце, это может быть связано с ghostscript (v0.1.4). Теперь v0.1.6 использует pdfunite. – Pablo Bianchi 10 March 2017 в 01:46
4

@PabloBianchi Есть ли способ ручной корректуры текста OCRed с помощью pdfsandwitch? Я делаю это с некоторыми шведскими документами, и он работает хорошо, за исключением некоторых орфографических ошибок (вероятно, из-за шрифта оригинала), которые было бы легко исправить, если бы это был текстовый файл, но как я могу это сделать в полученном PDF-файле ? – zrajm 20 June 2017 в 18:44
5

@zrajm вы можете использовать некоторые параметры pdfsandwich для лучшего распознавания на этапе OCR. Чтобы редактировать скрытый текст за изображением PDF, вы можете просто отредактировать слой текстовых полей с помощью LibreOffice Draw, Inkscape или любого инструмента редактирования PDF. Если вы найдете лучший способ, разместите его здесь. DaH jImej! – Pablo Bianchi 21 June 2017 в 21:40

Добавление информации OCR в PDF-файл

43 ответа

pdfsandwich

pdfsandwich

pdfsandwich

Другие вопросы по тегам:

Похожие вопросы: