Я только что выполнил поиск в Google о том, как преобразовать отсканированный документ (машинописного текста) в документ, который распознает символы, как любой другой документ Word. Но конечно я пошел и забыл, что я использую Ubuntu, а не Windows. Так что все еще можно как-то сделать то же самое в Ubuntu, вот что мне интересно. Я был бы очень признателен за любую помощь.
Спасибо.
У меня была похожая проблема с этим некоторое время назад. Попробуйте загрузить файл на online-convert.com . Это займет некоторое время, но веб-приложение может обрабатывать практически любой формат. Удачи!
Тессеракт - один из вариантов, который отлично сработал для меня!
Я использовал его следующим образом:
Установите его, если у вас его нет:
sudo apt-get install tesseract-ocr
Тогда:
Преобразуйте отсканированный файл .JPG в формат .tif (это формат, который требуется для Tesseract
). Это делается с помощью ImageMagick следующим образом:
convert foo.JPG foo.tif
Теперь просто позвольте Тессеракту творить чудеса:
tesseract foo.tif foo
(сохранит вывод to foo.txt)
Недавно мне пришлось преобразовать старое руководство с несколькими (36) страницами в нечто цифровое. Я сделал для этого сценарий BASH.
Код здесь:
#!/bin/bash
# makeDoc.sh
# Turn a set of scanned JPG pages into a single document file.
# Requires the ImageMagick and Tesseract packages.
# Author: Fred Fury
echo "makeDoc.sh"
echo "Convert a set of scanned JPG pages into a single document file."
echo "Starting up..."
for i in {01..36}
do
echo "converting $i.JPG to $i.tif..."
bash -c "convert $i.JPG $i.tif" # Convert the file to tesseract usable format
bash -c "tesseract $i.tif $i &>-" # Convert the tif to txt
done
echo "Merging files into Output.doc"
bash -c "cat *.txt > Output.doc" # Merge all the generated txt files into a single file
echo "Done."
Также проверьте эту страницу для некоторых других решений: Какое самое лучшее и простое решение OCR? Здесь я нашел тессеракт.
Надеюсь, это поможет!