Как я могу заставить OCR Tesseract распознавать большие цифры метра электричества?

Question 1

Я хочу использовать программу OCR на RPi для распознавания цифр из фотографии моего метра электричества. Цифры являются большими и являются очень очевидными для меня, но Tesseract кажется не могущим распознать их вообще - в лучшем случае он обнаруживает несколько случайных неправильных цифр.

Я попытался обрезать числа и OCRing их индивидуально, но он не помогает. Я попробовал несколько других программ OCR, и они были не лучше.

Можно ли дать какие-либо предложения тому, как я могу заставить Tesseract правильно определять эти 2 больших количества в изображении ниже? Обратите внимание, что это, исходное изображение является ~2.5MB - эта копия, меньше для установки этому сайту.

Question 2

Очень маленькие цифры легче читать, когда они освещены сильным источником света. Некоторые аппаратные устройства, такие как флэш-накопители и адаптеры питания, имеют очень мелкие надписи на пластиковом корпусе, которые очень трудно читать при мягком освещении, но легко прочитать, когда устройство освещается сильным источником света.

Если это не помогает, вы можете открыть сканируемое изображение в GIMP Image Editor и повысить яркость и контрастность перед тем, как его распознать. GIMP Image Editor доступен в репозиториях Ubuntu по умолчанию.

Выберите прямоугольную область изображения, которая содержит числа для сканирования, с помощью инструмента «Прямоугольник», расположенного в верхнем левом углу панели инструментов.
В меню GIMP выберите Цвета -> Яркость-контраст .
Переместите ползунки «Яркость» и «Контрастность», чтобы улучшить читаемость чисел.
Убедитесь, что цвет переднего плана, расположенный в центре нижней части панели инструментов, черный, что является цветом по умолчанию.
Используйте инструмент «Заливка заливки», чтобы залить фон чисел черным цветом, чтобы светлые цифры отображались с большей контрастностью на черном фоне.
Выберите другую прямоугольную область изображения, которая содержит числа для сканирования при необходимости, и повторите шаги 2-5.
Экспортируйте изображение, когда вы закончите редактировать его, используя Файл -> Перезаписать или Файл -> Экспортировать как… [ 116]

Вы можете увидеть результаты сканирования OCR, полученные с помощью GIMP для улучшения моего тестового изображения в этом ответе .

karel · Answer 1 · 2 November 2019 в 20:07

Очень маленькие цифры легче читать, когда они освещены сильным источником света. Некоторые аппаратные устройства, такие как флэш-накопители и адаптеры питания, имеют очень мелкие надписи на пластиковом корпусе, которые очень трудно читать при мягком освещении, но легко прочитать, когда устройство освещается сильным источником света.

Если это не помогает, вы можете открыть сканируемое изображение в GIMP Image Editor и повысить яркость и контрастность перед тем, как его распознать. GIMP Image Editor доступен в репозиториях Ubuntu по умолчанию.

Выберите прямоугольную область изображения, которая содержит числа для сканирования, с помощью инструмента «Прямоугольник», расположенного в верхнем левом углу панели инструментов.
В меню GIMP выберите Цвета -> Яркость-контраст .
Переместите ползунки «Яркость» и «Контрастность», чтобы улучшить читаемость чисел.
Убедитесь, что цвет переднего плана, расположенный в центре нижней части панели инструментов, черный, что является цветом по умолчанию.
Используйте инструмент «Заливка заливки», чтобы залить фон чисел черным цветом, чтобы светлые цифры отображались с большей контрастностью на черном фоне.
Выберите другую прямоугольную область изображения, которая содержит числа для сканирования при необходимости, и повторите шаги 2-5.
Экспортируйте изображение, когда вы закончите редактировать его, используя Файл -> Перезаписать или Файл -> Экспортировать как… [ 116]

Вы можете увидеть результаты сканирования OCR, полученные с помощью GIMP для улучшения моего тестового изображения в этом ответе .

Как я могу заставить OCR Tesseract распознавать большие цифры метра электричества?

1 ответ

Другие вопросы по тегам:

Похожие вопросы: