Извлечение текста из отсканированного документа

Question 1

Несколько месяцев назад у меня была почти идентичная проблема. Переключение в консоль с экрана входа LightDM (Ctrl-Alt-F1), вход в систему с использованием имени пользователя и пароля администратора и ввод следующих команд разрешил проблему:

sudo mv ~/.Xauthority ~/.Xauthority.backup
sudo service lightdm restart

Question 2

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 3

Question 4

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 5

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 6

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 7

Question 8

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 9

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Question 10

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Question 11

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Question 12

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Question 13

Question 14

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Question 15

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

Question 16

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Question 17

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

Question 18

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

Question 19

Question 20

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

Question 21

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Question 22

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

Question 23

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

Question 24

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

Question 25

Question 26

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Question 27

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

Question 28

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

Question 29

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

Question 30

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Question 31

Question 32

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

Question 33

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

Question 34

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

Question 35

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Question 36

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

Question 37

Question 38

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

Rinzwind · Accepted Answer · 25 May 2018 в 21:11

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 25 July 2018 в 21:57

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 26 July 2018 в 18:04

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 31 July 2018 в 11:55

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 2 August 2018 в 03:31

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 4 August 2018 в 19:29

Название для этого типа процедуры - OCR (распознавание оптического символа). Эта ссылка также предлагает несколько вариантов:

gocr - A command line OCR fuzzyocr - spamassassin plugin to check image attachments libhocr0 - Hebrew OCR ocrad - Optical Character Recognition program ocrfeeder - Document layout analysis and optical character recognition system ocropus - document analysis and OCR system tesseract-ocr cuneiform - multi-language OCR system

И это говорит о том, что Tesseract ( OCR ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 6 August 2018 в 03:39

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 7 August 2018 в 21:30

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 10 August 2018 в 09:47

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Rinzwind · Accepted Answer · 13 August 2018 в 16:01

Имя для этого типа процедуры - OCR (оптическое распознавание символов). Эта ссылка также предлагает несколько вариантов:

 gocr - Командная строка OCR fuzzyocr - плагин spamassassin для проверки вложений изображений libhocr0 - Иврит OCR ocrad - Программа распознавания оптических символов ocrfeeder - Анализ макета документа и оптическая система распознавания символов  ocropus - анализ документа и система распознавания текста tesseract-ocr cuneiform - многоязычная система распознавания

И это говорит о том, что Tesseract ( очень старый учебник ) является лучшим вариантом. Так что дайте ему попробовать.

Marius Gedminas · Answer 11 · 25 May 2018 в 21:11

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

I Heart Ubuntu · Answer 12 · 25 May 2018 в 21:11

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

scouser73 · Answer 13 · 25 May 2018 в 21:11

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1

ответ дан scouser73 25 May 2018 в 21:11

anthony0013 · Answer 14 · 25 May 2018 в 21:11

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

anthony0013 · Answer 15 · 25 July 2018 в 21:57

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

I Heart Ubuntu · Answer 16 · 25 July 2018 в 21:57

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Marius Gedminas · Answer 17 · 25 July 2018 в 21:57

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

scouser73 · Answer 18 · 25 July 2018 в 21:57

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1

ответ дан scouser73 25 July 2018 в 21:57

anthony0013 · Answer 19 · 26 July 2018 в 18:04

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

I Heart Ubuntu · Answer 20 · 26 July 2018 в 18:04

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Marius Gedminas · Answer 21 · 26 July 2018 в 18:04

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

scouser73 · Answer 22 · 26 July 2018 в 18:04

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1

ответ дан scouser73 26 July 2018 в 18:04

anthony0013 · Answer 23 · 31 July 2018 в 11:55

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

I Heart Ubuntu · Answer 24 · 31 July 2018 в 11:55

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Marius Gedminas · Answer 25 · 31 July 2018 в 11:55

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

scouser73 · Answer 26 · 31 July 2018 в 11:55

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1

ответ дан scouser73 31 July 2018 в 11:55

anthony0013 · Answer 27 · 2 August 2018 в 03:31

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

I Heart Ubuntu · Answer 28 · 2 August 2018 в 03:31

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

Marius Gedminas · Answer 29 · 2 August 2018 в 03:31

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

scouser73 · Answer 30 · 2 August 2018 в 03:31

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1

ответ дан scouser73 2 August 2018 в 03:31

Извлечение текста из отсканированного документа

50 ответов

Другие вопросы по тегам:

Похожие вопросы: