Подразделение Google DeepMind, занимающееся разработкой сверхинтеллектуальных компьютеров, создало систему для машинно-генерируемой речи, которая, по ее словам, превосходит существующую технологию на 50 процентов.
Британский DeepMind, который Google приобрел за 400 около миллиона фунтов (533 миллионов) в 2014, разработал искусственный интеллект под названием WaveNet, который может имитировать человеческую речь, изучая, как формировать отдельные звуковые волны, создаваемые человеческим голосом. пост в пятницу. В слепых тестах для американского английского и китайского языков слушатели обнаружили, что речь, сгенерированная WaveNet, звучит более естественно, чем та, которая была создана любой из существующих программ Google для преобразования текста в речь, которые основаны на различных технологиях. WaveNet по-прежнему проигрывал записи реальной человеческой речи.
Многие компьютерные речевые программы работают с использованием большого набора данных коротких записей одного человека, а затем комбинируют эти речевые фрагменты для формирования новых слов. Результат понятен и звучит по-человечески, если не полностью естественно. Недостатком является то, что звук голоса не может быть легко изменен. Другие системы формируют голос полностью электронным способом, обычно на основе правил о том, как произносятся определенные буквенные комбинации. Эти системы позволяют легко манипулировать звуком голоса, но они, как правило, звучат менее естественно, чем сгенерированная компьютером речь, основанная на записях говорящих на людях, сказал DeepMind.
WaveNet - это тип ИИ, называемый нейронной сетью, который предназначен для имитации работы частей человеческого мозга. Такие сети должны быть обучены с большими наборами данных.
Пэт еще раз уточняет ситуацию своим комментарием.