У меня есть бумажный документ. Есть еще страницы, содержащие таблицу с 3 столбцами (текущий номер, имя и оценка).
Я отсканировал его и получил 16 JPEG-документов. Каждый JPEG это отсканированная страница.
Теперь мне нужно OCR для преобразования каждого JPEG в текст, чтобы вставить эту таблицу в документ Excel.
Я использую LibreOffice и Ubuntu 12.04.
Немного опоздал с ответом на этот вопрос.
Но для тех, кто посещает эту страницу в поисках решения OCR для LibreOffice, я недавно разработал LibreOCR, плагин для OCR для LibreOffice.
Он является частью проекта Indic-OCR .
Расширение теперь можно найти на веб-сайте LibreOffice Extensions
Страница Scanning и OCR на Приложениях Ubuntu показывает нам несколько альтернатив, из которых я предлагаю, чтобы Вы использовали Программу Сканирования Изображения XSane или Простое Сканирование (обычно предварительно устанавливаемый в 12,04 и возможно более ранние версии также) и/или gscan2pdf, отсканировали Ваши документы.
Моим фаворитом являются gscan2pdf, которые позволяют Вам следовать за процессом Сканирования/OCR в том же GUI без проблемы.
Заметьте, что я пытаюсь выполнить OCR к снимку экрана.
Вы просто Сканирование или Импорт, документы/изображения и входят в Меню Инструментов, выберите OCR Option, и Вас попросят Механизма OCR, просто выберете тот, который дает лучшие результаты для Вас, и нажмите "Start OCR".
Вы найдете Вывод OCR на вкладке с тем же заголовком как показано в следующем снимке экрана.
Обратите внимание на то, что даже с изображениями хорошего качества OCR может привести к сбою интерпретирующие определенные символы, которые могут привести к словам с ошибками или просто египетскому иероглифическому письму. Процесс к OCR большой набор документов может задержаться некоторое время.
Вот ссылка на всестороннее видео, которое объясняет процесс для Сканирования и OCR в GScan2PDF: http://www.youtube.com/watch?v=UjjogfWfWsQ
Удачи!