Преобразование отсканированных документов в & ldquo; Word & rdquo; документы?

Question 1

Я только что выполнил поиск в Google о том, как преобразовать отсканированный документ (машинописного текста) в документ, который распознает символы, как любой другой документ Word. Но конечно я пошел и забыл, что я использую Ubuntu, а не Windows. Так что все еще можно как-то сделать то же самое в Ubuntu, вот что мне интересно. Я был бы очень признателен за любую помощь.

Спасибо.

Question 2

У меня была похожая проблема с этим некоторое время назад. Попробуйте загрузить файл на online-convert.com . Это займет некоторое время, но веб-приложение может обрабатывать практически любой формат. Удачи!

Question 3

Question 4

Тессеракт - один из вариантов, который отлично сработал для меня!

Я использовал его следующим образом:

Установите его, если у вас его нет:

 sudo apt-get install tesseract-ocr

Тогда:

Преобразуйте отсканированный файл .JPG в формат .tif (это формат, который требуется для Tesseract
). Это делается с помощью ImageMagick следующим образом:

convert foo.JPG foo.tif
Теперь просто позвольте Тессеракту творить чудеса:

tesseract foo.tif foo (сохранит вывод to foo.txt)

Недавно мне пришлось преобразовать старое руководство с несколькими (36) страницами в нечто цифровое. Я сделал для этого сценарий BASH.

Код здесь:

#!/bin/bash
# makeDoc.sh
# Turn a set of scanned JPG pages into a single document file.
# Requires the ImageMagick and Tesseract packages.
# Author: Fred Fury 

echo "makeDoc.sh"
echo "Convert a set of scanned JPG pages into a single document file."
echo "Starting up..."
for i in {01..36}
do
    echo "converting $i.JPG to $i.tif..."
    bash -c "convert $i.JPG $i.tif"     # Convert the file to tesseract usable format
    bash -c "tesseract $i.tif $i &>-"   # Convert the tif to txt
done
echo "Merging files into Output.doc"    
bash -c "cat *.txt > Output.doc"        # Merge all the generated txt files into a single file
echo "Done."

Также проверьте эту страницу для некоторых других решений: Какое самое лучшее и простое решение OCR? Здесь я нашел тессеракт.

Надеюсь, это поможет!

Dillmo · Answer 1 · 31 July 2013 в 16:16