Добавление информации OCR в PDF-файл

Поскольку вы точно не знаете, какую часть Linux вы хотите изучить, мне сложно точно знать, что рекомендовать. Если вы ищете Linux в общем Linux в двух словах, это довольно хорошо: http://www.amazon.com/Linux-Nutshell-Ellen-Siever/dp/0596154488/ref=pd_sim_b_5 Кроме того, если вас интересует ядро Linux и, возможно, как скомпилировать одно ядро ​​Linux в двух словах: http://www.amazon.com/Linux-Kernel-Nutshell-OReilly/dp/0596100795/ref=sr_1_1?ie=UTF8&s=books& qid = 1287625440 & amp; sr = 1-1 Если вы ищете внутреннюю работу Google, вы можете честно получить хорошую сумму в Интернете без книг. Например: http://www.linuxnewbieguide.org/content/chapter-1-what-linux Или они для более полных тем: http://lotphelp.com/lotp/tour-linux-filesystem http: // lotphelp. com / lotp / workings-linux-kernel Поиск в Google может выявить тысячи сайтов, а также такие книги. Удачи вам в учебе!

23
задан 7 June 2012 в 15:19

43 ответа

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 25 July 2018 в 18:36

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 25 July 2018 в 18:36

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 25 July 2018 в 18:36

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 25 July 2018 в 18:36

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 25 July 2018 в 18:36

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 31 July 2018 в 10:34

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 31 July 2018 в 10:34

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 31 July 2018 в 10:34

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 31 July 2018 в 11:37

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 31 July 2018 в 11:37

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 31 July 2018 в 11:37

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 31 July 2018 в 11:37

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 31 July 2018 в 11:37

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 2 August 2018 в 00:46

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 2 August 2018 в 00:46

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 2 August 2018 в 00:46

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 2 August 2018 в 00:46

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 2 August 2018 в 00:46

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 4 August 2018 в 16:16

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 4 August 2018 в 16:16

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 4 August 2018 в 16:16

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 4 August 2018 в 16:16

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 4 August 2018 в 16:16

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 6 August 2018 в 00:55

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

2
ответ дан 6 August 2018 в 00:55

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 6 August 2018 в 00:55

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7
ответ дан 6 August 2018 в 00:55

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

14
ответ дан 6 August 2018 в 00:55

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

3
ответ дан 7 August 2018 в 18:20

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

1
ответ дан 7 August 2018 в 18:20

Другие вопросы по тегам:

Похожие вопросы: