Извлечение текста из отсканированного документа

Несколько месяцев назад у меня была почти идентичная проблема. Переключение в консоль с экрана входа LightDM (Ctrl-Alt-F1), вход в систему с использованием имени пользователя и пароля администратора и ввод следующих команд разрешил проблему:

sudo mv ~/.Xauthority ~/.Xauthority.backup
sudo service lightdm restart
10
задан 10 May 2011 в 17:24

50 ответов

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот скриншот от synaptic: пакеты языка Tesseract в Synaptic

Использование Tesseract

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Чтобы объединить все текстовые файлы в один, запустите команда cat *.txt >> all.txt

a) преобразовать все файлы изображений в текст

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

sudo add-apt-repository -y ppa:sandromani/gimagereader sudo apt-get update sudo apt-get install -y gimagereader

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если у вас нет установленной Java, вы можете установить его из репозитория или вы можете установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default

Я рекомендую VietOCR, потому что он позволяет вам записывать файлы в формате OCR, массовое преобразование также вариант.

0
ответ дан 4 August 2018 в 19:29

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

2
ответ дан 4 August 2018 в 19:29

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружил, что Tesseract был наименее плохим из них (но плохой) и написал сценарий оболочки для OCRing (поскольку Tesseract хочет скрывать входные форматы, такие как TIFF). Вот мой ~/bin/ocr:

#!/bin/sh # usage: ocr filename.jpg if test -z "$1"; then echo "usage: ocr filename.jpg [...]" echo "needs imagemagick and tesseract-ocr" echo "if tesseract fails, check if you've got tesseract-ocr-eng installed" fi tmpdir="$(mktemp -d)" for fn in "$@"; do convert "$fn" "$tmpdir/page.tif" tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$' cat "$tmpdir/page.txt" cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt" rm "$tmpdir/page.tif" "$tmpdir/page.txt" done rm -r "$tmpdir"

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло.

Надеюсь, что вещи улучшились с тех пор. Я недавно видел имя OCR Feeder в сообщениях в блоге, я бы попробовал.

3
ответ дан 4 August 2018 в 19:29

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1
ответ дан 4 August 2018 в 19:29

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1
ответ дан 6 August 2018 в 03:39

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружили, что Tesseract был наименее плохим из них (но достаточно плохим), и написал сценарий оболочки для OCRing (поскольку Tesseract хочет нечеткие форматы ввода, такие как TIFF). Вот мой ~ / bin / ocr :

  #! / Bin / sh # use: ocr filename.jpg if test -z "$ 1";  then echo "use: ocr filename.jpg [...]" echo "нуждается в imagemagick и tesseract-ocr" echo ", если tesseract терпит неудачу, проверьте, установлен ли tesseract-ocr-eng" fi tmpdir = "$ (mktemp  -d) "для fn в" $ @ ";  do конвертировать "$ fn" "$ tmpdir / page.tif" tesseract "$ tmpdir / page.tif" "$ tmpdir / page" 2 & amp; 1 |  grep -v '^ Tesseract Open Source OCR Engine $' cat "$ tmpdir / page.txt" cp -i "$ tmpdir / page.txt" "$ {fn% .jpg} .txt" rm "$ tmpdir / page.  tif "" $ tmpdir / page.txt "done rm -r" $ tmpdir " 

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло .

Надеюсь, с тех пор все улучшилось. Недавно я видел имя OCR Feeder в блогах, я бы попробовал.

3
ответ дан 6 August 2018 в 03:39

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

2
ответ дан 6 August 2018 в 03:39

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

  1. Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот снимок экрана сделан из synaptic: Пакеты языков Tesseract в Synaptic

Использование Tesseract

ВАРИАНТ 1 - с помощью командной строки открыть терминал, затем перейти в папку где вы сохраняете файлы изображений (jpg, png) и запускаете команду:

a) преобразовать все файлы изображений в текст

  для i в * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" текст;  done  

Чтобы объединить все текстовые файлы в один, запустите команду cat * .txt & gt; & gt; gt; all.txt

b) конвертировать все файлы изображений в файлы hocr (открыть с Firefox)

  для i in * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" hoc;  done  

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

  sudo add-apt-repository -y  ppa: sandromani / gimagereader sudo apt-get update sudo apt-get install -y gimagereader  

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если вы У вас установлена ​​Java, вы можете установить ее из репозитория или установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

  sudo add-apt-repository ppa: webupd8team  / java sudo apt-get update sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default  

Я рекомендую VietOCR, потому что он позволяет вам распознавать PDF-файлы, массовое преобразование также является опцией.

0
ответ дан 6 August 2018 в 03:39

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1
ответ дан 7 August 2018 в 21:30

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

2
ответ дан 7 August 2018 в 21:30

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружили, что Tesseract был наименее плохим из них (но достаточно плохим), и написал сценарий оболочки для OCRing (поскольку Tesseract хочет нечеткие форматы ввода, такие как TIFF). Вот мой ~ / bin / ocr :

  #! / Bin / sh # use: ocr filename.jpg if test -z "$ 1";  then echo "use: ocr filename.jpg [...]" echo "нуждается в imagemagick и tesseract-ocr" echo ", если tesseract терпит неудачу, проверьте, установлен ли tesseract-ocr-eng" fi tmpdir = "$ (mktemp  -d) "для fn в" $ @ ";  do конвертировать "$ fn" "$ tmpdir / page.tif" tesseract "$ tmpdir / page.tif" "$ tmpdir / page" 2 & amp; 1 |  grep -v '^ Tesseract Open Source OCR Engine $' cat "$ tmpdir / page.txt" cp -i "$ tmpdir / page.txt" "$ {fn% .jpg} .txt" rm "$ tmpdir / page.  tif "" $ tmpdir / page.txt "done rm -r" $ tmpdir " 

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло .

Надеюсь, с тех пор все улучшилось. Недавно я видел имя OCR Feeder в блогах, я бы попробовал.

3
ответ дан 7 August 2018 в 21:30

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

  1. Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот снимок экрана сделан из synaptic: Пакеты языков Tesseract в Synaptic

Использование Tesseract

ВАРИАНТ 1 - с помощью командной строки открыть терминал, затем перейти в папку где вы сохраняете файлы изображений (jpg, png) и запускаете команду:

a) преобразовать все файлы изображений в текст

  для i в * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" текст;  done  

Чтобы объединить все текстовые файлы в один, запустите команду cat * .txt & gt; & gt; gt; all.txt

b) конвертировать все файлы изображений в файлы hocr (открыть с Firefox)

  для i in * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" hoc;  done  

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

  sudo add-apt-repository -y  ppa: sandromani / gimagereader sudo apt-get update sudo apt-get install -y gimagereader  

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если вы У вас установлена ​​Java, вы можете установить ее из репозитория или установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

  sudo add-apt-repository ppa: webupd8team  / java sudo apt-get update sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default  

Я рекомендую VietOCR, потому что он позволяет вам распознавать PDF-файлы, массовое преобразование также является опцией.

0
ответ дан 7 August 2018 в 21:30

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1
ответ дан 10 August 2018 в 09:47

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружили, что Tesseract был наименее плохим из них (но достаточно плохим), и написал сценарий оболочки для OCRing (поскольку Tesseract хочет нечеткие форматы ввода, такие как TIFF). Вот мой ~ / bin / ocr :

  #! / Bin / sh # use: ocr filename.jpg if test -z "$ 1";  then echo "use: ocr filename.jpg [...]" echo "нуждается в imagemagick и tesseract-ocr" echo ", если tesseract терпит неудачу, проверьте, установлен ли tesseract-ocr-eng" fi tmpdir = "$ (mktemp  -d) "для fn в" $ @ ";  do конвертировать "$ fn" "$ tmpdir / page.tif" tesseract "$ tmpdir / page.tif" "$ tmpdir / page" 2 & amp; 1 |  grep -v '^ Tesseract Open Source OCR Engine $' cat "$ tmpdir / page.txt" cp -i "$ tmpdir / page.txt" "$ {fn% .jpg} .txt" rm "$ tmpdir / page.  tif "" $ tmpdir / page.txt "done rm -r" $ tmpdir " 

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло .

Надеюсь, с тех пор все улучшилось. Недавно я видел имя OCR Feeder в блогах, я бы попробовал.

3
ответ дан 10 August 2018 в 09:47

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

2
ответ дан 10 August 2018 в 09:47

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

  1. Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот снимок экрана сделан из synaptic: Пакеты языков Tesseract в Synaptic

Использование Tesseract

ВАРИАНТ 1 - с помощью командной строки открыть терминал, затем перейти в папку где вы сохраняете файлы изображений (jpg, png) и запускаете команду:

a) преобразовать все файлы изображений в текст

  для i в * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" текст;  done  

Чтобы объединить все текстовые файлы в один, запустите команду cat * .txt & gt; & gt; gt; all.txt

b) конвертировать все файлы изображений в файлы hocr (открыть с Firefox)

  для i in * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" hoc;  done  

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

  sudo add-apt-repository -y  ppa: sandromani / gimagereader sudo apt-get update sudo apt-get install -y gimagereader  

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если вы У вас установлена ​​Java, вы можете установить ее из репозитория или установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

  sudo add-apt-repository ppa: webupd8team  / java sudo apt-get update sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default  

Я рекомендую VietOCR, потому что он позволяет вам распознавать PDF-файлы, массовое преобразование также является опцией.

0
ответ дан 10 August 2018 в 09:47

Пакет Tesseract-ocr - это командная строка. Если вы хотите программу с графическим интерфейсом, я использую «gscan2pdf», и вы можете найти ее в Центре программного обеспечения Ubuntu.

В gscan2pdf все, что вам нужно сделать, это щелкнуть маленькую иконку сканирования вверху. Я думаю, это дает вам два или три варианта, GOCR, который не очень хорош, и Tesseract, который работает превосходно. Выберите Tesseract, и с этого момента вам нужно щелкнуть соответствующую вкладку, чтобы вы могли найти настройки разрешения. Ваш лучший выбор - 300 или даже 600, а Tesseract преуспеет.

Плохо отсканированные, кривые или старые документы плохо конвертируются. Удачи!

PS .. Я продолжаю читать, что Tesseract может читать только изображения TIFF. Это не случай для меня. Я могу импортировать JPG или PNG тоже.

PPS ... извините за изменения! Вы также можете попробовать OCRFeeder в программном центре. Мне еще предстоит попробовать.

2
ответ дан 13 August 2018 в 16:01

Некоторое время назад оценивали различные пакеты OCR в Ubuntu, обнаружили, что Tesseract был наименее плохим из них (но достаточно плохим), и написал сценарий оболочки для OCRing (поскольку Tesseract хочет нечеткие форматы ввода, такие как TIFF). Вот мой ~ / bin / ocr :

  #! / Bin / sh # use: ocr filename.jpg if test -z "$ 1";  then echo "use: ocr filename.jpg [...]" echo "нуждается в imagemagick и tesseract-ocr" echo ", если tesseract терпит неудачу, проверьте, установлен ли tesseract-ocr-eng" fi tmpdir = "$ (mktemp  -d) "для fn в" $ @ ";  do конвертировать "$ fn" "$ tmpdir / page.tif" tesseract "$ tmpdir / page.tif" "$ tmpdir / page" 2 & amp; 1 |  grep -v '^ Tesseract Open Source OCR Engine $' cat "$ tmpdir / page.txt" cp -i "$ tmpdir / page.txt" "$ {fn% .jpg} .txt" rm "$ tmpdir / page.  tif "" $ tmpdir / page.txt "done rm -r" $ tmpdir " 

Предварительная обработка изображений с помощью GIMP (преобразование в B & amp; W с использованием инструмента Threshold), похоже, очень помогло .

Надеюсь, с тех пор все улучшилось. Недавно я видел имя OCR Feeder в блогах, я бы попробовал.

3
ответ дан 13 August 2018 в 16:01

Я нашел это, он называется Tesseract OCR, надеюсь, он может вам пригодиться.

http://linuxappfinder.com/package/tesseract-ocr

1
ответ дан 13 August 2018 в 16:01

У меня есть Linux Mint 17.2 x32 Cinnamon. Вероятно, эти шаги будут работать и в Ubuntu 14.04 x32.

  1. Установить Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Вы можете добавить другие языки, установив дополнительные пакеты. Этот снимок экрана сделан из synaptic: Пакеты языков Tesseract в Synaptic

Использование Tesseract

ВАРИАНТ 1 - с помощью командной строки открыть терминал, затем перейти в папку где вы сохраняете файлы изображений (jpg, png) и запускаете команду:

a) преобразовать все файлы изображений в текст

  для i в * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" текст;  done  

Чтобы объединить все текстовые файлы в один, запустите команду cat * .txt & gt; & gt; gt; all.txt

b) конвертировать все файлы изображений в файлы hocr (открыть с Firefox)

  для i in * png;  do b = `basename" $ ​​i ".png`;  tesseract -l eng "$ i" "$ b" hoc;  done  

ВАРИАНТ 2 - с помощью GUI

a) Установите gImageReader и используйте его

  sudo add-apt-repository -y  ppa: sandromani / gimagereader sudo apt-get update sudo apt-get install -y gimagereader  

b) Второе приложение - VietOCR. Фактическая версия 4.0, поэтому загрузите VietOCR-4.0.zip

Распакуйте файлы и откройте VietOCR.jar с помощью Java:

Откройте VietOCR с помощью Java Если вы У вас установлена ​​Java, вы можете установить ее из репозитория или установить официальный Oracle Java 8. Шаги по установке Oracle Java 8 в Ubuntu 14.04

  sudo add-apt-repository ppa: webupd8team  / java sudo apt-get update sudo apt-get install oracle-java8-installer sudo apt-get install oracle-java8-set-default  

Я рекомендую VietOCR, потому что он позволяет вам распознавать PDF-файлы, массовое преобразование также является опцией.

0
ответ дан 13 August 2018 в 16:01

Другие вопросы по тегам:

Похожие вопросы: