近日,加拿大新創(chuàng)公司琴鳥(niǎo)發(fā)布了新款人工智能(AI)語(yǔ)音系統(tǒng),其能通過(guò)分析講話錄音和對(duì)應(yīng)文本以及兩者之間的關(guān)聯(lián),在1分鐘內(nèi)模仿人類(lèi)“講話”。不過(guò)業(yè)內(nèi)專(zhuān)家認(rèn)為,語(yǔ)音系統(tǒng)真正令人信服地復(fù)制人聲,還需再等幾年。
據(jù)《科學(xué)美國(guó)人》雜志網(wǎng)站2日?qǐng)?bào)道,加拿大新創(chuàng)公司琴鳥(niǎo)(Lyrebird)發(fā)布了新款人工智能(AI)語(yǔ)音系統(tǒng),其能通過(guò)分析講話錄音和對(duì)應(yīng)文本以及兩者之間的關(guān)聯(lián),在1分鐘內(nèi)模仿人類(lèi)“講話”,比如,模仿特朗普、奧巴馬和希拉里三個(gè)人的聲音展開(kāi)一段對(duì)話。
讓聲音聽(tīng)起來(lái)更自然,是計(jì)算機(jī)程序在將文字轉(zhuǎn)換成語(yǔ)音過(guò)程中面臨的核心挑戰(zhàn),即使目前最好的語(yǔ)音助手,如蘋(píng)果公司的Siri和亞馬遜公司的Alexa,一發(fā)聲給人的第一感覺(jué)仍然是,“哇!這是計(jì)算機(jī)。”背后原因在于這些語(yǔ)音助手系統(tǒng)的工作原理:根據(jù)預(yù)錄的聲音文檔整理出詞匯,再通過(guò)另一個(gè)新的音頻文檔將這些詞匯拼湊在一起發(fā)聲。
而琴鳥(niǎo)公司的AI使用了一種全新的語(yǔ)音合成系統(tǒng),能在“傾聽(tīng)”過(guò)程中“掌握”每個(gè)人說(shuō)話時(shí)字母、音位和單詞的發(fā)音特點(diǎn),通過(guò)推理并模仿這個(gè)人聲音中的情感和語(yǔ)調(diào),“說(shuō)”出全新的語(yǔ)句。
新系統(tǒng)使用模仿人腦思維的算法創(chuàng)建出一種人工神經(jīng)網(wǎng)絡(luò),能利用深度學(xué)習(xí)技術(shù)將所聽(tīng)到的轉(zhuǎn)換成語(yǔ)音,并僅靠任何人1分鐘講話內(nèi)容,就能完全模仿這個(gè)人說(shuō)話。其市場(chǎng)前景非常廣闊,可用來(lái)改進(jìn)個(gè)人人工智能助手、音頻書(shū)籍以及殘疾人語(yǔ)音系統(tǒng)等。
開(kāi)發(fā)該系統(tǒng)的蒙特利爾大學(xué)學(xué)習(xí)算法實(shí)驗(yàn)室博士后亞歷山大·布瑞比森表示,在學(xué)會(huì)并模仿了幾個(gè)人的聲音后,再模仿任何一個(gè)新對(duì)象的語(yǔ)音就會(huì)變得更快,因此新語(yǔ)音系統(tǒng)不需太多信息,1分鐘足以捕獲某個(gè)人聲音的核心特點(diǎn)。
但美國(guó)卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所教授迪莫·鮑曼表示,琴鳥(niǎo)的語(yǔ)音系統(tǒng)和真正的人聲之間還有差距。“我仔細(xì)聽(tīng)過(guò)琴鳥(niǎo)系統(tǒng)的發(fā)聲,其帶有背景噪音,以及微弱的機(jī)器人特征。而且,它還不能模仿人們?cè)谥v話中的呼吸和唇部運(yùn)動(dòng),因此仍然能聽(tīng)出其計(jì)算機(jī)語(yǔ)音特征。”鮑曼說(shuō)。他認(rèn)為,語(yǔ)音系統(tǒng)真正令人信服地復(fù)制人聲,還需再等幾年。