Как создавать высококачественные PDF-файлы со скопированным текстом из сканирования?

Можно обновить ubuntu 32 бит до 64 бит, у него будет много и много нежелательных файлов, и вы должны очистить его вручную.

Я НИКОГДА НЕ РЕКОМЕНДУЕТ ДЛЯ НОВЫХ.

Что бы вы ни делали, сначала создайте резервные копии важных данных. Затем пойдите для исследования с os.

Сначала попробуйте live-cd из 64 бит. Если это работает, пойдите для новой установки, рекомендуется.

Также есть некоторое программное обеспечение, которое все еще 32 бит. Поэтому, чтобы установить 32-битное программное обеспечение на 64-битных ОС, нам нужна некоторая обратная обработка .. это тоже будет плохо.

Подумайте в течение некоторого времени: каково ваше требование, что вы собираетесь делать, следующий план / работа с 64-битными os.

2
задан 24 September 2017 в 14:16

3 ответа

Преамбула

Вы ищете PDF-бутерброд, то есть сканированный PDF-файл с невидимым слоем текста (или слой текста, который просто помещается за изображение каждой страницы). [!d1 ]

Существует несколько способов его создания. В качестве примера документа, требующего OCR, я буду использовать подходы к взвешиванию текста в автоматическом поиске текста.

Команда pdfsandwich

Прежде всего, установите этот инструмент из репозитории:

sudo apt install pdfsandwich

Затем вы можете просто запустить его в своем PDF-файле и ждать:

pdfsandwich document.pdf

Сводные подходы к взвешиванию в автоматическом поиске текста [ ! d8]

В прошлом этот метод был не очень точным, особенно wrt текстовое позиционирование. Кажется, теперь все стало намного лучше. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Если вы выделите текст в Evince, будут показаны черные ящики.

PDF-XChange Viewer

Это бесплатная программа для Windows, которая отлично работает под Wine, если вы используете 32-битную версию в 32-битном префиксе Wine. Для этого я предлагаю использовать PlayOnLinux, потому что очень легко выбрать последнюю версию Wine и тот факт, что вам нужен 32-разрядный префикс.

После установки вы можете запустить его и выбрать значок OCR на панель инструментов:

freeware, программа только для Windows

Выход обычно очень хорош и точное размещение текста. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Abstract - Экспериментальные данные, накопленные за последние 20 лет лет, указывает, что

OCR.space

Если вы выделите текст в Evince, текст будет показан шрифтом sans-serif.

Это на самом деле веб-сервис. Перейдите в ocr.space и выберите свой файл и язык, затем установите флажок «Создать доступный PDF-файл с невидимым текстовым слоем». Нажмите кнопку и подождите, пока документ будет загружен и преобразован.

2
ответ дан 22 May 2018 в 18:10

Преамбула

Вы ищете PDF-бутерброд, то есть сканированный PDF-файл с невидимым слоем текста (или слой текста, который просто помещается за изображение каждой страницы).

Существует несколько способов его создания. В качестве примера документа, требующего OCR, я буду использовать подходы к взвешиванию текста в автоматическом поиске текста.

Команда pdfsandwich

Прежде всего, установите этот инструмент из репозитории:

sudo apt install pdfsandwich

Затем вы можете просто запустить его в своем PDF-файле и ждать:

pdfsandwich document.pdf

Сводные подходы к взвешиванию в автоматическом поиске текста [ ! d8]

В прошлом этот метод был не очень точным, особенно wrt текстовое позиционирование. Кажется, теперь все стало намного лучше. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Если вы выделите текст в Evince, будут показаны черные ящики.

PDF-XChange Viewer

Это бесплатная программа для Windows, которая отлично работает под Wine, если вы используете 32-битную версию в 32-битном префиксе Wine. Для этого я предлагаю использовать PlayOnLinux, потому что очень легко выбрать последнюю версию Wine и тот факт, что вам нужен 32-разрядный префикс.

После установки вы можете запустить его и выбрать значок OCR на панель инструментов:

freeware, программа только для Windows

Выход обычно очень хорош и точное размещение текста. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Abstract - Экспериментальные данные, накопленные за последние 20 лет лет, указывает, что

OCR.space

Если вы выделите текст в Evince, текст будет показан шрифтом sans-serif.

Это на самом деле веб-сервис. Перейдите в ocr.space и выберите свой файл и язык, затем установите флажок «Создать доступный PDF-файл с невидимым текстовым слоем». Нажмите кнопку и подождите, пока документ будет загружен и преобразован.

2
ответ дан 18 July 2018 в 06:18

Преамбула

Вы ищете PDF-бутерброд, то есть сканированный PDF-файл с невидимым слоем текста (или слой текста, который просто помещается за изображение каждой страницы).

Существует несколько способов его создания. В качестве примера документа, требующего OCR, я буду использовать подходы к взвешиванию текста в автоматическом поиске текста.

Команда pdfsandwich

Прежде всего, установите этот инструмент из репозитории:

sudo apt install pdfsandwich

Затем вы можете просто запустить его в своем PDF-файле и ждать:

pdfsandwich document.pdf

Сводные подходы к взвешиванию в автоматическом поиске текста [ ! d8]

В прошлом этот метод был не очень точным, особенно wrt текстовое позиционирование. Кажется, теперь все стало намного лучше. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Если вы выделите текст в Evince, будут показаны черные ящики.

PDF-XChange Viewer

Это бесплатная программа для Windows, которая отлично работает под Wine, если вы используете 32-битную версию в 32-битном префиксе Wine. Для этого я предлагаю использовать PlayOnLinux, потому что очень легко выбрать последнюю версию Wine и тот факт, что вам нужен 32-разрядный префикс.

После установки вы можете запустить его и выбрать значок OCR на панель инструментов:

freeware, программа только для Windows

Выход обычно очень хорош и точное размещение текста. Пример из PDF:

. Экспериментальные данные, накопленные за последние 20 лет, показывают, что

Abstract - Экспериментальные данные, накопленные за последние 20 лет лет, указывает, что

OCR.space

Если вы выделите текст в Evince, текст будет показан шрифтом sans-serif.

Это на самом деле веб-сервис. Перейдите в ocr.space и выберите свой файл и язык, затем установите флажок «Создать доступный PDF-файл с невидимым текстовым слоем». Нажмите кнопку и подождите, пока документ будет загружен и преобразован.

2
ответ дан 24 July 2018 в 18:34

Другие вопросы по тегам:

Похожие вопросы: