У меня есть КОРИЧНЕВЫЙ список на бумаге для онлайна - банкинга, который похож на это:
001 123456 015 123456 029 123456 043 123456 ...
002 123456 ...
...
Я просканировал его, и теперь я хочу использовать OCR для получения текста.
Я попробовал tesseract, gocr и клинообразный знак.
Все программы не получают хорошие результаты. Как может я OCR текст?
Фон: Я хочу сохранить КОРИЧНЕВЫЙ список в keepass. Keepass действительно поддерживает изображения, но только версию ПК. Версия Android не делает. Вот почему я хочу текст. И текст лучше с тех пор, можно использовать copy&paste.
Я нашел это решение сам:
read-tan-list.py:
import sys
i=0
tans=[]
for line in open(sys.argv[1]):
line=line.strip()
if not line:
continue
tans.append(line)
for i, tan in enumerate(tans):
print('%03d %s' % (i+1, tan)),
if i%5==4:
print('\n'),
else:
print(' '),
Качество исходного изображения часто является дефицитным ресурсом в ocr. (попробуйте что-то как 600 точек на дюйм)
я предложил бы, чтобы Вы попробовали tesserat.
tesseract imagename outputbase [-l lang]
(и, имея дело с банковским делом, выбирают очень тщательно, что Вы храните в своих устройствах...)