DeepMind在twitter發文稱:“讓人類和機器對話是人機交互領域長久以來的夢想!”
通常我們聽到的計算機或手機輸出的文本轉語音(TTS)音頻都會覺得別扭、生硬,甚至詭異。此次DeepMind推出的這款新型語音合成系統WaveNet將大大改善這種情況,讓機器輸出音頻更自然、更像人類發聲。
當然,讓計算機發出聲音,這并不是什么新鮮事兒。
最常用的TTS方法可能是拼接式語音合成(ConcatenativeSynthesis):先錄制單一說話者的大量語音片段,建立一個大型語料庫,然后簡單地從中進行選擇并合成完整的大段音頻、詞語和句子。這種“機械式”方法使得計算機輸出音頻經常產生語音毛刺、語調的詭異變化、甚至結巴,并且無法調整語音的強調性音節或情緒。
另外一種方法是所謂的參數化方法,利用數學模型對已知的聲音進行排列、組裝成詞語或句子來重新創造音頻。這種技術倒是不易產生聲音毛刺,所以確實讓機器輸出的音頻聽起來不那么機器化。
然而,這兩種技術的共同點是:簡單、機械地將語音片段拼接起來,而不是從零開始創造出整個音頻波形。
WaveNet正是一種從零開始創造整個音頻波形輸出的技術。
WaveNet利用真實的人類聲音剪輯和相應的語言、語音特征來訓練其卷積神經網絡(convolutionalneuralnetworks),讓其能夠辨別這兩方面(語言和語音)的音頻模式。使用中,對WaveNet系統輸入新的文本信息,也即相對應的新的語音特征,WaveNet系統會重新生成整個原始音頻波形來描述這個新的文本信息。
WaveNet組織結構
WaveNet是逐步進行操作的:首先,生成一個音頻波形樣本;接著再處理、生成一個音頻波形樣本,逐步進行。其中非常重要的是,新的樣本生成都會受到此前樣本結果的影響,也即每一步的樣本結果都將影響下一步的樣本預測,并幫助生成下一步的樣本。
最終的音頻結果確實表現驚人(試聽參照DeepMind網站:https://deepmind.com/blog/wavenet-generative-model-raw-audio/)。相比于連續合成和參數化合成技術,WaveNet輸出音頻明顯更接近自然人聲。
DeepMind的WaveNet技術無疑是計算機語音合成領域的一大突破。然而,由于WaveNet是計算整個原始音頻波形,每輸出一秒音頻神經網絡必須處理16000個樣本,所以WaveNet技術需要強大的運算能力來合成語音。
據DeepMind透露給《金融時報》(FinancialTimes)的內部消息稱,這意味著目前還不能應用于谷歌或其他的任何一項產品中。
然而,這并不是計算機面臨的唯一語言問題。翻譯自然語言和手寫文字也是人工智能系統的一大難題。
起碼以現在這速度,在計算機形成真正的智能思考能力之前,它們應該早就能夠用花哨的語言和人類交流了。