Как указать язык, который будет использоваться Tesseract при использовании OCRFeeder

Я использую OCR-утилиту OCRFeeder. OCRFeeder использует движок tesseract. Я установил несколько языковых пакетов, необходимых для tesseract. Как установить язык таким образом, чтобы tesseract использовал правильный языковой файл для преобразования отсканированного документа в текст?

5
задан 10 February 2011 в 22:44

9 ответов

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 25 July 2018 в 22:30
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 26 July 2018 в 22:03
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 31 July 2018 в 12:37
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 2 August 2018 в 03:56
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 4 August 2018 в 20:00
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 6 August 2018 в 04:01
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Где lang_id - это идентификатор, как показано на имени соответствующего языкового пакета.

3
ответ дан 7 August 2018 в 22:00
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

  -l lang_id $ IMAGE $ FILE;  cat $ FILE.txt  

Где lang_id - это идентификатор, как показано на соответствующем имени пакета языка.

3
ответ дан 10 August 2018 в 10:14

Вам нужно настроить командную строку двигателя на настройках фидера OCR. Он должен выглядеть так:

  -l lang_id $ IMAGE $ FILE;  cat $ FILE.txt  

Где lang_id - это идентификатор, как показано на соответствующем имени пакета языка.

3
ответ дан 13 August 2018 в 16:37
  • 1
    Спасибо, Жоау. Однако идентификатор языка должен быть указан как последний аргумент. например. $ IMAGE $ FILE -l lang-id; cat $ FILE.txt – Bernard Decock 13 February 2011 в 12:55
  • 2
    Я добавил несколько OCR-двигателей в OCR-Feeder. Goto Tools, OCR-Engines и новый ocr-движок: я продолжаю использовать движок tesseract, но я указал новое имя для каждой записи, сделанной с определенным идентификатором языка. Итак, для каждого языка у меня есть конкретный ocr-egine, который может быть выбран OCR-Feeder (спасибо João Pinto за подсказку) – Bernard Decock 13 February 2011 в 13:01
  • 3
    Языковые теги можно найти в синаптических для пакетов tesseract. (spa = испанский, fra = французский, deu = немецкий, nld = голландский; ita = итальянский, por = portugese). например. для сканирования французского текста мой Tesseract-французский движок имеет следующую командную строку: $ IMAGE $ FILE -l fra; cat $ FILE.txt – Bernard Decock 13 February 2011 в 13:07

Другие вопросы по тегам:

Похожие вопросы: