Я хочу преобразовать текст в аудиофайл, содержащий синтезированную речь, которая считывает этот текст. Какое бесплатное (libre + gratis) программное обеспечение доступно для этого и как мне его установить и использовать?
Мне не нужно использовать его в качестве инструмента доступности - я просто хочу иметь возможность прослушивать мои ревизионные заметки, когда я занимаюсь другими вещами, например играю в игры.
В порядке убывания популярности :
скажем, преобразует текст в слышимую речь с помощью механизма речи GNUstep.
sudo apt-get install gnustep- GUI-среда выполнения
скажи привет"
festival Общая многоязычная система синтеза речи.
sudo apt-get install festival
эхо "привет" | фестиваль --tts
spd-say отправляет запрос преобразования текста в речь диспетчеру речи
sudo apt-get install voice-dispatcher
spd-поздороваться
espeak - это многоязычный программный синтезатор речи.
sudo apt-get install espeak
сказать "привет"
espeak
- это хороший маленький инструмент.
Мне просто нравится играть с ним в командной строке. Вы можете обнаружить, что она конфликтует с Pulseaudio, поэтому я использую длинноволновую версию, которая исключает необходимость ее правильной настройки.
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help
покажет вам возможности калибровки скорости чтения, высоты тона, голоса и т.д.
Когда вы делаете свои заметки, сохраните их как текстовый файл, а затем:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
Вы можете играть с ffmeg и т.д., чтобы сжать это из PCM во что-нибудь более управляемое, например, MP3 или OGG. Но это другая история.
Это то, что я использую. И это звучит естественно, это легко понять и он распознает единицы (m, °C, kg, ...).
Здесь мой первый пост о pico2wave.
Все, что нужно сделать: Зайдите в Центр программного обеспечения Ubuntu и найдите "pico". Вы найдете 4 или 5 записей с "Small Footprint Ling...". Установите их.
Возможное использование pico2wave описано в моей первой записи (перейдите по ссылке выше).
Несмотря на то, что вы уже приняли ответ, я хотел бы упомянуть фестиваль
, который мне тоже очень нравится. Это сообщение на форумах Ubuntu содержит много информации о том, как настроить очень хорошие голоса.
Балаболка под Wine отлично работает (для меня) с голосами SAPI4 (голоса SAPI5 не обнаруживаются в моей системе Linux). Он может открывать файлы и начинать чтение.
Вот ссылка на запись Wine в AppDB для Balabolka: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
И еще один espeak gui: gespeaker
. Он использует оба двигателя espeak
и mbrola
. Также у него больше возможностей, чем у espeak-gui
.
Mbrola не работает с 11.10.
Инструменты SVOX (pico) просты в установке, использовании и обеспечивают хорошее качество голоса в Ubuntu. Установите его:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Еще проще, вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив расширение «Читать текст» , и вы получите «графический интерфейс» для этого превосходного программного обеспечения TTS:
Настройте параметры расширения чтения текста с помощью Инструменты - Надстройки - Прочитать выделение .... Используйте / usr / bin / python в качестве внешней программы. Выберите параметр командной строки, включающий токен (PICO_READ_TEXT_PY).
Следующее решение не является FLOSS, но вы можете найти его целесообразным. (это вино решение),
Лично я очень увлекаюсь ТТС, использую его довольно часто... например, слушаю блуждающий дискурс, который я бы никогда не потрудился придерживаться другой стороны (потому что мне нужно выпить еще одну чашку кофе... :)
Несколько вещей, которые я открыл по дороге... или, должен сказать, вещей, которые я не открыл по дороге... Если говорить прямо: Каждый кусочек голосового программного обеспечения FOSS TTS, который я пробовал, находится на нулевом уровне и поэтому непригоден для полупрофессионального прослушивания...
В настоящее время я использую ATnT's NaturalVoices. Он доступен только для Windows (может быть, Mac), но он работает под вино
в Ubuntu ... (он имеет небольшой глитч, где мне иногда нужно нажать на панель, когда я отхожу от читателя ... Это незначительная проблема по сравнению с тем преимуществом, которое дает качество речи от NatualVoices.
Некоторые другие вещи, которые я считаю практически необходимыми для получувствительного восприятия звука, это;...
Эти TTS-программы не являются интеллектуальными (возможно, такими же умными, как молодой бабуин) ... поэтому им нужна каждая частичка помощи, которую они могут получить. И есть одна (и только одна Читалка программа, которую я нашел, которая очень помогает в этом... Приложение называется ReadPlease (2003 Pro)
.... Она позволяет специально модифицировать слова и группы слов для произношения так, как вы хотите, чтобы они.... Это ни в коем случае не идеально, но для меня это сделало разницу между тем, что весь процесс может быть использован и не может быть использован....
Речь в "Естественных голосах" - "хорошо", но она немного скучновата. Есть и другие хорошие продукты, но они все для Windows, к сожалению)...
Иногда это преподносит сюрпризы... но ОМГ, поначалу это боль! ...так что #2 это *терпение... и множество обновлений вашего списка "особых слов"... Под терпением я имею в виду, что вы (я) на самом деле привыкли к моим особым образцам речи бабуина :)... и, кстати, в настоящее время у меня есть около 3000 слов, которые теперь звучат "человечески" достаточно, чтобы я больше не хрустел, когда их слышу.
3.. "Следуй за прыгающим шаром" ... Опять же, потому что голос никогда не бывает так хорош, как настоящий оратор, иногда нужно что-то прояснить... ... Программа для чтения, которую я использую, имеет одну особенность, за которую я даже мирился с ее неуклюжим интерфейсом..... Имеет опцию слова "выбрать читаемый в настоящее время"... Многие читатели имеют это, но ReadPlease держит текущую строку удар по центру экрана ... Это бесценно, чтобы иметь возможность видеть впереди и сзади, чтобы быстро перечитать то, что вы только что пропустили (так что автоцентрирование линии кюрета хорошо) ...
Ну, это мой опыт... Сейчас я сделаю кофе, и пока я это делаю, я буду слушать это, чтобы посмотреть, как это "читает" ..... TTS удивительно хорош для сбора опечаток (я делаю много опечаток)...
Если что-то столь же хорошее, как ATnT NaturalVoices появляется на репозитории Ubuntu, я прыгну на это.
Вот ссылка на некоторые примеры Natural Voices : Я пользуюсь "MIke"
Установка: sudo apt-get install espeak
Использование: echo [message] | espeak
Инструмент gTTS отлично подходит для создания аудиофайлов из текста. Он использует API преобразования текста в речь Google Translate и генерирует файлы mp3.
Поскольку для установки используется pip
, я настоятельно рекомендую вам установить Miniconda, а затем использовать conda
для создания среды, в которой вы можете установить gTTS. Вы можете скачать Miniconda отсюда:
https://docs.conda.io/en/latest/miniconda.html
Репозиторий GitHub для gTTS:
https://github.com/pndurette/ gTTS
И вы можете найти документацию по gTTS здесь:
Встречайте espeak-ng
- Многоязычный программный синтезатор речи:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
Он использует английский голос по умолчанию, но есть множество других голосов для других языков и даже доступных диалектов, которые могут быть перечислены с espeak-ng --voices
(для всех) или, например, espeak-ng --voices = en
(для английского языка). Их можно установить с помощью -v
вместе с сокращением языка или именем файла, например для шотландского или суахили:
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
Есть много других вариантов, например -s
для скорости и -w
для записи вывода в волновой файл, см. Ссылку ниже на справочной странице.
espeak-ng
(«ng» для «следующего поколения») - активно развивающаяся ветвь оригинального espeak
программного обеспечения синтезатора речи , см. главу История в Википедии . Оба они доступны из официальных источников через пакет espeak
или espeak-ng
соответственно.
For festival
(голос кажется более естественным мне):
sudo apt-get install festival
echo "hello" | festival --tts
Конфигурация шага и скорости:
создать ~ / .festivalrc
со следующим содержанием:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
См. также http://www.solomonson.com/content / ubuntu-linux-text-speech
Обновление: пробовал на другом компьютере Ubuntu. Для правильной работы с фестивалем пришлось установить пакет движка английской речи:
sudo apt-get install festvox-kallpc16k
Также play
- это команда cli, которая входит в пакет sox
:
sudo apt-get install sox
Python Google Speech:
pip install google_speech
google_speech "Test the hello world"
Svox с Android:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
Svox Nanotts:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
Связанный ресурс: Сравнение синтезаторов речи
Источник сообщения: Linuxhacks.org
Раскрытие: Я владелец Linuxhacks.org
От man spd-say
:
NAME spd-say - send text-to-speech output request to speech-dispatcher SYNOPSIS spd-say [options] "some text" DESCRIPTION spd-say sends text-to-speech output request to speech-dispatcher process which handles it and ideally outputs the result to the audio system. OPTIONS -r, --rate Set the rate of the speech (between -100 and +100, default: 0) -p, --pitch Set the pitch of the speech (between -100 and +100, default: 0) -i, --volume Set the volume (intensity) of the speech (between -100 and +100, default: 0)
Следовательно, вы можете преобразовать текст в речь с помощью следующей команды:
spd-say "<type text>"
Пример:
spd-say "Welcome to Ubuntu Linux"
Вы также можете установить скорость речи, высоту тона, громкость и т. Д. см. справочную страницу.