Улучшите звук (не речь) качество синтеза речи по тексту Pico2Wave

Я использую Ubuntu 12.04.

Я хочу сделать широкое применение поддержки синтеза речи по тексту Linux создать звуковые файлы из текста.

Я попробовал Фестиваль, но обретание дар речи и установка их чрезмерно сложны, таким образом, я использую его с ее речью по умолчанию.

Я также попробовал Pico2Wave.

Фестивальный синтез речи по тексту является полностью автоматизированным и неестественным, и это не подходит для долгосрочного слушания. Это имеет "трещащий" звук в фоновом режиме, но можно услышать слова решительно, тем не менее, но снова, автоматизированное и плохое качество с точки зрения речи.

Фестивальный образец здесь

Pico2Wave является очень естественным и сопоставимым с синтезом речи по тексту Apple, с точки зрения дикции и человекоподобной речи, но качество самого звука ужасно. Кажется будто это было зарегистрировано в очень пустой комнате с большим количеством эха. Это звучит "душным", грязным, упитанным со слишком большим количеством баса. Так это заставляет динамики грохотать, и очень трудно понять иногда, если Вы не используете наушники. Звук не является чипсами вообще. Я также подозреваю звуковые "клипы", но я не аудио эксперт.

Образец Pico2Wave здесь

Мой вопрос:

Как я могу улучшить качество звука сгенерированного звукового файла? Я не аудио эксперт, таким образом, я не знаю то, с чем я должен играть (усиление?, бас?, уменьшите шум? на какой расширяется? и т.д.), Отмечают, что я - не просьба о рекомендуемых инструментах, но быть объясненным, что точно неправильное с тем аудио и с чем качества должны я играть в моем редактировании аудио / улучшающееся предпочтительное приложение.

Примечание: Демонстрационный текст является первым абзацем "Последнего из могикан":

Это была функция, специфичная для колониальных войн Северной Америки, что с тяжелыми трудами и опасностями дикой местности нужно было встретиться, прежде чем неблагоприятные хосты могли встретиться. Широкое и по-видимому непроницаемая граница лесов разъединили имущество враждебных областей Франции и Англии. Выносливый колонист и обученный европеец, который боролся рядом, часто расходуемые месяцы в борьбе против порогов потоков, или в осуществлении труднодоступных передач гор, в поисках возможности показать их храбрость в более военном конфликте. Но, эмулируя терпение и самоотречение опытных собственных воинов, они учились преодолевать каждую трудность; и казалось бы, что, вовремя, не было никакого перерыва лесов, столь темных, ни никакое секретное место, настолько прекрасное, что это могло бы требовать освобождения от нашествий тех, кто обещал их кровь, чтобы насытить их месть или поддержать холодную и эгоистичную политику удаленных монархов Европы.

0
задан 25 November 2016 в 03:55

2 ответа

Смотря на форму сигнала в Смелости, пиковый уровень очень высок - в то время как форма сигнала не выглядит отсеченной, это, вероятно, вызывает пристегивающийся воспроизведение - звучит противным при проигрывании с VLC. Используя Смелость 'Усиливают' эффект, я установил пиковую амплитуду на-3.0, который воспроизводит хороший и чистый - я попробовал это, экспортируемое назад в wav, и это затем играет по правилам и чистый в VLC. Несомненно это могло быть сделано на командной строке или в использовании сценария SoX или подобное.

1
ответ дан 28 September 2019 в 03:07

Я просто сталкиваюсь с той же проблемой, и в данный момент я - конец с чем-то как

pico2wave -l $LANGUAGE -w $WAV "$*" && play -qV0 $WAV treble 24 gain -l 6

, который звучит как намного больше "хрустящего картофеля".

2
ответ дан 28 September 2019 в 03:07

Другие вопросы по тегам:

Похожие вопросы: