Как я могу установить и использовать программное обеспечение преобразования текста в речь?

Я хочу преобразовать текст в аудиофайл, содержащий синтезированную речь, которая считывает этот текст. Какое бесплатное (libre + gratis) программное обеспечение доступно для этого и как мне его установить и использовать?

Мне не нужно использовать его в качестве инструмента доступности - я просто хочу иметь возможность прослушивать мои ревизионные заметки, когда я занимаюсь другими вещами, например играю в игры.

104
задан 16 January 2011 в 15:35

14 ответов

В порядке убывания популярности :

  • скажем, преобразует текст в слышимую речь с помощью механизма речи GNUstep.

     sudo apt-get install gnustep-  GUI-среда выполнения
    скажи привет"
     
  • festival Общая многоязычная система синтеза речи.

     sudo apt-get install festival
    эхо "привет" |  фестиваль --tts
     
  • spd-say отправляет запрос преобразования текста в речь диспетчеру речи

     sudo apt-get install voice-dispatcher
    spd-поздороваться
     
  • espeak - это многоязычный программный синтезатор речи.

     sudo apt-get install espeak
    сказать "привет"
     
143
ответ дан 5 January 2021 в 23:56

espeak - это хороший маленький инструмент.

Мне просто нравится играть с ним в командной строке. Вы можете обнаружить, что она конфликтует с Pulseaudio, поэтому я использую длинноволновую версию, которая исключает необходимость ее правильной настройки.

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help покажет вам возможности калибровки скорости чтения, высоты тона, голоса и т.д.

Когда вы делаете свои заметки, сохраните их как текстовый файл, а затем:

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

Вы можете играть с ffmeg и т.д., чтобы сжать это из PCM во что-нибудь более управляемое, например, MP3 или OGG. Но это другая история.

20
ответ дан 16 January 2011 в 15:35

SVOX pico2wave

Это то, что я использую. И это звучит естественно, это легко понять и он распознает единицы (m, °C, kg, ...).

Здесь мой первый пост о pico2wave.

Все, что нужно сделать: Зайдите в Центр программного обеспечения Ubuntu и найдите "pico". Вы найдете 4 или 5 записей с "Small Footprint Ling...". Установите их.

Возможное использование pico2wave описано в моей первой записи (перейдите по ссылке выше).

4
ответ дан 16 January 2011 в 15:35

Несмотря на то, что вы уже приняли ответ, я хотел бы упомянуть фестиваль, который мне тоже очень нравится. Это сообщение на форумах Ubuntu содержит много информации о том, как настроить очень хорошие голоса.

2
ответ дан 16 January 2011 в 15:35

Балаболка под Wine отлично работает (для меня) с голосами SAPI4 (голоса SAPI5 не обнаруживаются в моей системе Linux). Он может открывать файлы и начинать чтение.

Вот ссылка на запись Wine в AppDB для Balabolka: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859

0
ответ дан 16 January 2011 в 15:35

И еще один espeak gui: gespeaker. Он использует оба двигателя espeak и mbrola. Также у него больше возможностей, чем у espeak-gui.

3
ответ дан 16 January 2011 в 15:35

Mbrola не работает с 11.10.

Инструменты SVOX (pico) просты в установке, использовании и обеспечивают хорошее качество голоса в Ubuntu. Установите его:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Еще проще, вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив расширение «Читать текст» , и вы получите «графический интерфейс» для этого превосходного программного обеспечения TTS:

Настройте параметры расширения чтения текста с помощью Инструменты - Надстройки - Прочитать выделение .... Используйте / usr / bin / python в качестве внешней программы. Выберите параметр командной строки, включающий токен (PICO_READ_TEXT_PY).

6
ответ дан 16 January 2011 в 15:35

Следующее решение не является FLOSS, но вы можете найти его целесообразным. (это вино решение),

Лично я очень увлекаюсь ТТС, использую его довольно часто... например, слушаю блуждающий дискурс, который я бы никогда не потрудился придерживаться другой стороны (потому что мне нужно выпить еще одну чашку кофе... :)

Несколько вещей, которые я открыл по дороге... или, должен сказать, вещей, которые я не открыл по дороге... Если говорить прямо: Каждый кусочек голосового программного обеспечения FOSS TTS, который я пробовал, находится на нулевом уровне и поэтому непригоден для полупрофессионального прослушивания...

В настоящее время я использую ATnT's NaturalVoices. Он доступен только для Windows (может быть, Mac), но он работает под вино в Ubuntu ... (он имеет небольшой глитч, где мне иногда нужно нажать на панель, когда я отхожу от читателя ... Это незначительная проблема по сравнению с тем преимуществом, которое дает качество речи от NatualVoices.

Некоторые другие вещи, которые я считаю практически необходимыми для получувствительного восприятия звука, это;...

  1. Эти TTS-программы не являются интеллектуальными (возможно, такими же умными, как молодой бабуин) ... поэтому им нужна каждая частичка помощи, которую они могут получить. И есть одна (и только одна Читалка программа, которую я нашел, которая очень помогает в этом... Приложение называется ReadPlease (2003 Pro).... Она позволяет специально модифицировать слова и группы слов для произношения так, как вы хотите, чтобы они.... Это ни в коем случае не идеально, но для меня это сделало разницу между тем, что весь процесс может быть использован и не может быть использован....

  2. Речь в "Естественных голосах" - "хорошо", но она немного скучновата. Есть и другие хорошие продукты, но они все для Windows, к сожалению)...
    Иногда это преподносит сюрпризы... но ОМГ, поначалу это боль! ...так что #2 это *терпение... и множество обновлений вашего списка "особых слов"... Под терпением я имею в виду, что вы (я) на самом деле привыкли к моим особым образцам речи бабуина :)... и, кстати, в настоящее время у меня есть около 3000 слов, которые теперь звучат "человечески" достаточно, чтобы я больше не хрустел, когда их слышу.

    3.. "Следуй за прыгающим шаром" ... Опять же, потому что голос никогда не бывает так хорош, как настоящий оратор, иногда нужно что-то прояснить... ... Программа для чтения, которую я использую, имеет одну особенность, за которую я даже мирился с ее неуклюжим интерфейсом..... Имеет опцию слова "выбрать читаемый в настоящее время"... Многие читатели имеют это, но ReadPlease держит текущую строку удар по центру экрана ... Это бесценно, чтобы иметь возможность видеть впереди и сзади, чтобы быстро перечитать то, что вы только что пропустили (так что автоцентрирование линии кюрета хорошо) ...

Ну, это мой опыт... Сейчас я сделаю кофе, и пока я это делаю, я буду слушать это, чтобы посмотреть, как это "читает" ..... TTS удивительно хорош для сбора опечаток (я делаю много опечаток)...

Если что-то столь же хорошее, как ATnT NaturalVoices появляется на репозитории Ubuntu, я прыгну на это.

Вот ссылка на некоторые примеры Natural Voices : Я пользуюсь "MIke"

3
ответ дан 16 January 2011 в 15:35

Установка: sudo apt-get install espeak Использование: echo [message] | espeak

0
ответ дан 16 January 2011 в 15:35

Инструмент gTTS отлично подходит для создания аудиофайлов из текста. Он использует API преобразования текста в речь Google Translate и генерирует файлы mp3.
Поскольку для установки используется pip , я настоятельно рекомендую вам установить Miniconda, а затем использовать conda для создания среды, в которой вы можете установить gTTS. Вы можете скачать Miniconda отсюда:

https://docs.conda.io/en/latest/miniconda.html

Репозиторий GitHub для gTTS:

https://github.com/pndurette/ gTTS

И вы можете найти документацию по gTTS здесь:

https://gtts.readthedocs.io/en/latest/

1
ответ дан 5 January 2021 в 23:56

Встречайте espeak-ng - Многоязычный программный синтезатор речи:

espeak-ng "text to read"
espeak-ng -f "~/file to read"

Он использует английский голос по умолчанию, но есть множество других голосов для других языков и даже доступных диалектов, которые могут быть перечислены с espeak-ng --voices (для всех) или, например, espeak-ng --voices = en (для английского языка). Их можно установить с помощью -v вместе с сокращением языка или именем файла, например для шотландского или суахили:

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

Есть много других вариантов, например -s для скорости и -w для записи вывода в волновой файл, см. Ссылку ниже на справочной странице.

Дополнительная информация

espeak-ng («ng» для «следующего поколения») - активно развивающаяся ветвь оригинального espeak программного обеспечения синтезатора речи , см. главу История в Википедии . Оба они доступны из официальных источников через пакет espeak или espeak-ng соответственно.

2
ответ дан 5 January 2021 в 23:56

For festival (голос кажется более естественным мне):

sudo apt-get install festival
echo "hello" | festival --tts

Конфигурация шага и скорости:

создать ~ / .festivalrc со следующим содержанием:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)

См. также http://www.solomonson.com/content / ubuntu-linux-text-speech

Обновление: пробовал на другом компьютере Ubuntu. Для правильной работы с фестивалем пришлось установить пакет движка английской речи:

sudo apt-get install festvox-kallpc16k

Также play - это команда cli, которая входит в пакет sox :

sudo apt-get install sox
3
ответ дан 5 January 2021 в 23:56

Python Google Speech:

pip install google_speech

google_speech "Test the hello world"

Svox с Android:

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

Svox Nanotts:

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

Связанный ресурс: Сравнение синтезаторов речи
Источник сообщения: Linuxhacks.org
Раскрытие: Я владелец Linuxhacks.org

8
ответ дан 5 January 2021 в 23:56

От man spd-say :

NAME
       spd-say - send text-to-speech output request to speech-dispatcher

SYNOPSIS
       spd-say [options] "some text"

DESCRIPTION
       spd-say  sends text-to-speech output request to speech-dispatcher process which handles it and ideally outputs the result
       to the audio system.

OPTIONS
       -r, --rate
              Set the rate of the speech (between -100 and +100, default: 0)

       -p, --pitch
              Set the pitch of the speech (between -100 and +100, default: 0)

       -i, --volume
              Set the volume (intensity) of the speech (between -100 and +100, default: 0)

Следовательно, вы можете преобразовать текст в речь с помощью следующей команды:

spd-say "<type text>"

Пример:

spd-say "Welcome to Ubuntu Linux"

Вы также можете установить скорость речи, высоту тона, громкость и т. Д. см. справочную страницу.

14
ответ дан 5 January 2021 в 23:56

Другие вопросы по тегам:

Похожие вопросы: