В основе технологии — две нейросети глубокого обучения. Первая преобразует текст в спектрограмму (визуальное представление звуковых частот), которая потом передаётся в WaveNet — метод генерации речи.
Как пишет N+1, Google уже давно ведет разработки в области синтеза речи.
С примерами работы программы можно познакомиться на
В отличие от остальных систем синтеза речи, метод Tacotron 2 представляет звуковую информацию в виде спектрограмм — визуализированной взаимосвязи частоты и времени. Предшествующая версия программы — Tacotron — набрала в среднем 4,0 балла.
Как считают создатели Tacotron 2, метод может быть использован для улучшения работы голосовых помощников, которые получают все не менее широкое распространение.
Как стало известно, с этого момента программы Google смогут говорить звуком не робота, а человека.