Приложение распознавания речи для преобразования MP3 в текст?

Кто-нибудь знает приложение, которое может конвертировать аудио в текст? Я использую Ubuntu 12.04 LTS.

23
задан 9 July 2012 в 20:07

28 ответов

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 25 July 2018 в 18:09

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 25 July 2018 в 18:09

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 25 July 2018 в 18:09

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что требует моделей. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 25 July 2018 в 18:09

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 2 August 2018 в 00:23

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 2 August 2018 в 00:23

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 2 August 2018 в 00:23

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что требует моделей. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 2 August 2018 в 00:23

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 4 August 2018 в 15:52

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 4 August 2018 в 15:52

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 4 August 2018 в 15:52

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что для этого нужны модели. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 4 August 2018 в 15:52

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 6 August 2018 в 00:30

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 6 August 2018 в 00:30

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 6 August 2018 в 00:30

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что для этого нужны модели. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 6 August 2018 в 00:30

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 7 August 2018 в 17:54

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 7 August 2018 в 17:54

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 7 August 2018 в 17:54

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что требует моделей. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 7 August 2018 в 17:54

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 10 August 2018 в 06:45

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 10 August 2018 в 06:45

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 10 August 2018 в 06:45

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что требует моделей. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 10 August 2018 в 06:45

Вы можете использовать speechpad.pw панель транскрипции

Смотрите видео об использовании транскрипции

1
ответ дан 15 August 2018 в 18:38
  • 1
    Это выглядит круто, хотя я не думаю, что это отвечает на вопрос, который должен был получить транскрипцию существующего файла. При этом я только что попробовал Сфинкс, и он с треском провалился ... транскрипция была на 99,9% неправильной. – Alexis Wilke 10 November 2017 в 22:47

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

«Julius» - это высокая высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой с непрерывным распознаванием речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, - Саймон

... - это программа распознавания речи с открытым исходным кодом, которая заменяет мышь и клавиатура.

Справочные ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

9
ответ дан 15 August 2018 в 18:38

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, чтобы получить актуальную версию работы pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge. (не уверен, что находится в актуальном состоянии). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше ядер ЦП, вы можете увеличить их.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем из: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models / US% 20English / загрузите новейшие версии cmusphinx-en-us-....tar.gz и en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Затем вы можете, наконец, перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь, это поможет.

9
ответ дан 15 August 2018 в 18:38
  • 1
    каждая вещь работает как шарм, но в моем случае мне нужно было выполнить следующую команду, чтобы исправить pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory ------- & gt; export LD_LIBRARY_PATH=/usr/local/lib ------- & gt; export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig – Vijay Dohare 19 September 2017 в 14:30

Программное обеспечение, которое вы можете использовать, - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что требует моделей. Модели для распознавания речи с большим словарным запасом недоступны для Юлиуса.

Вы можете использовать pocketsphinx для преобразования аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Результат выполнения pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

16
ответ дан 15 August 2018 в 18:38
  • 1
    также, в дополнение к этому ответу, здесь есть отличная демонстрация инструментов speech recognition и voice command: youtube.com/… – Daithí 8 January 2015 в 14:22
  • 2
    Как добавить акустическую модель в систему? – jarno 8 February 2015 в 17:38
  • 3
    Вы просто скачиваете его и распаковываете, такого понятия как «добавить в систему» ​​не существует – Nikolay Shmyrev 8 February 2015 в 17:56
  • 4
    @NikolayShmyrev Где я должен распаковать это так, чтобы pocketsphinx_continuous нашел это? – jarno 8 February 2015 в 18:14
  • 5
    Ну, я установил пакеты pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj и pocketsphinx-lm-en-hub4 в хранилище юниверсов Ubuntu 14.04. Затем pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log работал. Возможно, они не являются оптимальными пакетами, но они были лучшими совпадениями, которые я мог найти в репозиториях. – jarno 8 February 2015 в 19:05

Другие вопросы по тегам:

Похожие вопросы: