По общему мнению, tesseract превосходен. Однако мои результаты мрачны. Мне нужно конвертировать (цифровой, а не из книги) текст, который у меня есть только в виде PNG. Например:
2 3 academics 1 1711
2 3 Achlmbobelmann 211 191—2
1 3 Aoqusmono|Food 1 171
n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
3 4 allluence 211 I849
81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£
Это из темно-синего текста на белом поле. Исходное изображение можно найти здесь . Как я могу сделать лучше?
Tesseract работает намного лучше, когда его обучают: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
Что мы нашли в нашей работе Для анализа более 50 миллионов PDF-файлов используется следующая стратегия:
(1) Из файлов типа PNG попытайтесь определить используемый шрифт. (2) Train Tesseract с TTF-формой шрифта (а не растрового изображения PNG-изображения) (3) Запустите tesseract с этим новым обучением.
Мы автоматизируем № 2 выше, но есть онлайн-инструменты для определения шрифта. Я бы предложил: http://www.whatfontis.com/
https://stackoverflow.com/questions/7292991/tesseract-confuses-two-numbers также может помочь.