Добавление информации OCR в PDF-файл

Question 1

Поскольку вы точно не знаете, какую часть Linux вы хотите изучить, мне сложно точно знать, что рекомендовать. Если вы ищете Linux в общем Linux в двух словах, это довольно хорошо: http://www.amazon.com/Linux-Nutshell-Ellen-Siever/dp/0596154488/ref=pd_sim_b_5 Кроме того, если вас интересует ядро Linux и, возможно, как скомпилировать одно ядро Linux в двух словах: http://www.amazon.com/Linux-Kernel-Nutshell-OReilly/dp/0596100795/ref=sr_1_1?ie=UTF8&s=books& qid = 1287625440 & amp; sr = 1-1 Если вы ищете внутреннюю работу Google, вы можете честно получить хорошую сумму в Интернете без книг. Например: http://www.linuxnewbieguide.org/content/chapter-1-what-linux Или они для более полных тем: http://lotphelp.com/lotp/tour-linux-filesystem http: // lotphelp. com / lotp / workings-linux-kernel Поиск в Google может выявить тысячи сайтов, а также такие книги. Удачи вам в учебе!

Question 2

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 3

Question 4

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 5

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 6

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 7

Question 8

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 9

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 10

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 11

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 12

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 13

Question 14

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 15

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 16

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 17

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 18

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 19

Question 20

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 21

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 22

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 23

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 24

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 25

Question 26

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 27

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 28

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 29

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 30

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Question 31

Question 32

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Question 33

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 34

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

Question 35

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Question 36

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Question 37

Question 38

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

user127022 · Answer 1 · 25 July 2018 в 18:36

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

To Do · Answer 2 · 25 July 2018 в 18:36

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Robert Citek · Answer 3 · 25 July 2018 в 18:36

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Ashwin Nanjappa · Answer 4 · 25 July 2018 в 18:36

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 25 July 2018 в 18:36

Pablo Bianchi · Answer 5 · 25 July 2018 в 18:36

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

user127022 · Answer 6 · 31 July 2018 в 10:34

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 7 · 31 July 2018 в 10:34

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

Pablo Bianchi · Answer 8 · 31 July 2018 в 10:34

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

user127022 · Answer 9 · 31 July 2018 в 11:37

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 10 · 31 July 2018 в 11:37

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

To Do · Answer 11 · 31 July 2018 в 11:37

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Pablo Bianchi · Answer 12 · 31 July 2018 в 11:37

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Ashwin Nanjappa · Answer 13 · 31 July 2018 в 11:37

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 31 July 2018 в 11:37

user127022 · Answer 14 · 2 August 2018 в 00:46

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 15 · 2 August 2018 в 00:46

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

To Do · Answer 16 · 2 August 2018 в 00:46

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Pablo Bianchi · Answer 17 · 2 August 2018 в 00:46

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Ashwin Nanjappa · Answer 18 · 2 August 2018 в 00:46

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 2 August 2018 в 00:46

user127022 · Answer 19 · 4 August 2018 в 16:16

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 20 · 4 August 2018 в 16:16

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

To Do · Answer 21 · 4 August 2018 в 16:16

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Pablo Bianchi · Answer 22 · 4 August 2018 в 16:16

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

Ashwin Nanjappa · Answer 23 · 4 August 2018 в 16:16

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 4 August 2018 в 16:16

user127022 · Answer 24 · 6 August 2018 в 00:55

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Robert Citek · Answer 25 · 6 August 2018 в 00:55

Для решения командной строки вы можете использовать pdfocr .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

To Do · Answer 26 · 6 August 2018 в 00:55

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

Ashwin Nanjappa · Answer 27 · 6 August 2018 в 00:55

Есть два проекта, которые делают трюк: GScan2PDF и OCRFeeder

7

ответ дан Ashwin Nanjappa 6 August 2018 в 00:55

Pablo Bianchi · Answer 28 · 6 August 2018 в 00:55

pdfsandwich

Делает то, что вы хотите, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой к отсканированному PDF:

pdfsandwich scanned.pdf

Следуйте за тем же, но с другим языком (код ISO 639-2, загрузите пакет tesseract-ocr-LANGCODE) и установите макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, пожалуйста, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: я являюсь разработчиком pdfsandwich и, следовательно, явно предвзятым.

To Do · Answer 29 · 7 August 2018 в 18:20

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображения.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

enter image description here [/g1]

user127022 · Answer 30 · 7 August 2018 в 18:20

Решение, которое легко реализуется и обеспечивает выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

Добавление информации OCR в PDF-файл

43 ответа

pdfsandwich

pdfsandwich

pdfsandwich

pdfsandwich

pdfsandwich

pdfsandwich

Другие вопросы по тегам:

Похожие вопросы: