Как улучшить производительность тессеракта?

По общему мнению, tesseract превосходен. Однако мои результаты мрачны. Мне нужно конвертировать (цифровой, а не из книги) текст, который у меня есть только в виде PNG. Например:

   2 3 academics 1 1711
   2 3 Achlmbobelmann 211 191—2
   1 3 Aoqusmono|Food 1 171
   n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
   3 4 allluence 211 I849
   81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£

Это из темно-синего текста на белом поле. Исходное изображение можно найти здесь . Как я могу сделать лучше?

2
задан 27 January 2014 в 11:28

1 ответ

Tesseract работает намного лучше, когда его обучают: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

Что мы нашли в нашей работе Для анализа более 50 миллионов PDF-файлов используется следующая стратегия:

(1) Из файлов типа PNG попытайтесь определить используемый шрифт. (2) Train Tesseract с TTF-формой шрифта (а не растрового изображения PNG-изображения) (3) Запустите tesseract с этим новым обучением.

Мы автоматизируем № 2 выше, но есть онлайн-инструменты для определения шрифта. Я бы предложил: http://www.whatfontis.com/

https://stackoverflow.com/questions/7292991/tesseract-confuses-two-numbers также может помочь.

0
ответ дан 27 January 2014 в 11:28

Другие вопросы по тегам:

Похожие вопросы: