智能機(jī)器人如何與人溝通?簡(jiǎn)單的指令輸入早已不能滿足這個(gè)快節(jié)奏的社會(huì),如果能夠語音操作該有多好。但是現(xiàn)在大部分智能機(jī)器人對(duì)于語言的識(shí)別與回應(yīng)并不盡如人意,有些只能識(shí)別普通話,有些則只能進(jìn)行一對(duì)一回應(yīng),如果是多人聊天模式,或者是在嘈雜的背景下,智能機(jī)器人就會(huì)“暈頭轉(zhuǎn)向”,不知所云。
想要解決這個(gè)問題并不簡(jiǎn)單,不過近日,在美國舊金山舉行的第四屆國際多通道語音分離和識(shí)別大賽,中國參賽團(tuán)隊(duì)通過完成六麥克風(fēng)、雙麥克風(fēng)和單麥克風(fēng)場(chǎng)景下的語音分離和英文識(shí)別任務(wù),最終奪冠。而這個(gè)技術(shù)解決的最重要問題,就包括在噪音環(huán)境下的語音識(shí)別。此次比賽的獲獎(jiǎng)團(tuán)隊(duì)來自科大訊飛,目前,他們已經(jīng)把這項(xiàng)技術(shù)應(yīng)用在了名為AIUI的人機(jī)交互解決方案上。
與機(jī)器人對(duì)話
語音識(shí)別技術(shù),小到手機(jī)指令大到智能家居控制都有所體現(xiàn),這讓生活變得更加便捷。但這并非語音識(shí)別的終極目標(biāo)。如果在噪音環(huán)境下,多個(gè)人給同一個(gè)智能機(jī)器人下了命令,那么后者應(yīng)該聽誰的,又應(yīng)該如何應(yīng)對(duì)呢?國際多通道語音分離和識(shí)別大賽比的就是如何解決這一類問題。
若想弄明白多通道語音,先明白語音識(shí)別的概念。首先,語音識(shí)別是指從語音到文本的轉(zhuǎn)換,也就是讓機(jī)器能夠聽懂人說的話。這其中包括兩層意思,一層是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所包含的要求,作出正確的應(yīng)答。這其中語音語言學(xué)、信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能的交叉學(xué)科,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息。
智能機(jī)器人對(duì)于人的語音的處理,與人類自身理解完全不同,它們先將連續(xù)的句子分解為詞、音素等單位,在理解語義的規(guī)則基礎(chǔ)上讀取其中的含義。如果說話的主體語音模糊或者口音較重時(shí),智能機(jī)器人若沒有設(shè)置過相關(guān)的規(guī)則,則無法識(shí)別。甚至一個(gè)人在認(rèn)真說話與隨意說話時(shí)的語調(diào)在智能機(jī)器人聽起來都有區(qū)別。再加上采集聲音時(shí)周圍環(huán)境的噪聲等,都會(huì)對(duì)機(jī)器人產(chǎn)生干擾,進(jìn)而導(dǎo)致語音識(shí)別的誤差率增加。而多通道語音識(shí)別是指,通過多個(gè)麥克風(fēng)采集聲源,再用麥克風(fēng)陣列技術(shù)進(jìn)行降噪之后,語音識(shí)別將會(huì)更加精確。
科大訊飛AIUI研發(fā)總監(jiān)趙艷軍在接受《中國科學(xué)報(bào)》記者采訪時(shí)介紹說,AIUI同時(shí)擁有的回聲消除、置信度判決、連續(xù)語音解密等技術(shù),人可以在任何時(shí)候?qū)C(jī)器進(jìn)行打斷發(fā)出需求,AIUI在遠(yuǎn)場(chǎng)識(shí)別方面支持3~5米的識(shí)別距離,識(shí)別率達(dá)到90%。“AIUI還支持方言識(shí)別,全雙工交互,以及自動(dòng)糾錯(cuò)的功能。同時(shí),用戶在和機(jī)器交流的時(shí)候發(fā)出的非相關(guān)語音,機(jī)器可以有效拒識(shí)。”趙艷軍說。
AIUI是目前世界上正在開發(fā)的人機(jī)交互解決方案之一。作為未來智能機(jī)器人的主流配置之一,商業(yè)化的語音交互平臺(tái)也是不少IT巨頭的研發(fā)重點(diǎn)。比如微軟的Speech API,是微軟推出的包含語音識(shí)別(SR)和語音合成(SS)引擎的應(yīng)用編程接口(API),依托Windows平臺(tái),可以之和朗讀英文、中文、日文等。另外一個(gè)巨頭是IBM,它是較早開始語音識(shí)別方面的研究的機(jī)構(gòu)之一,在1984年時(shí),IBM發(fā)布的語音識(shí)別系統(tǒng)在5000個(gè)詞匯量級(jí)上達(dá)到了95%的識(shí)別率。
自然流暢的交互體驗(yàn)
在之前公布的一段視頻中,幾個(gè)人給一個(gè)搭載了AIUI的機(jī)器人半成品下達(dá)不同的命令,先是搜索歌曲,再來問天氣,然后讓訂機(jī)票,之后還有人要求機(jī)器人搜索一首歌手與歌名完全不符的歌曲。雖然只是半成品,但是視頻中的機(jī)器人不緊不慢地“接招”,還“毫不客氣”地指出歌名與歌手信息有誤,并善意地提醒是否要重新搜索。
“準(zhǔn)確的反應(yīng)歸結(jié)于硬件與軟件的不斷更新。”趙艷軍回應(yīng)道。首先要克服的是交互環(huán)境的復(fù)雜性,比如用戶交互時(shí)各類的噪聲、多樣的口音、以及其他不可預(yù)知的干擾因素。其次,就是AIUI識(shí)別平臺(tái)中既長(zhǎng)又復(fù)雜的研發(fā)鏈路,從前端的麥克風(fēng)陣列技術(shù)到后端的語音喚醒、語義理解等服務(wù),需要各組的人員協(xié)調(diào)、配合、溝通、合作,“這對(duì)整個(gè)項(xiàng)目團(tuán)隊(duì)的要求是很高的。”
硬件方面,AIUI 也從之前的4+1麥克風(fēng)陣列到最新的6+0麥克風(fēng)陣列,讓其聲源定位、回聲消除、噪聲抑制等能力不斷增強(qiáng),可以從容應(yīng)對(duì)各種復(fù)雜的環(huán)境。“后續(xù)我們將持續(xù)優(yōu)化和完善AIUI,進(jìn)一步提升效果。如提高遠(yuǎn)場(chǎng)識(shí)別的識(shí)別率,增加方言識(shí)別的自適性,提高語義理解的能力等,使得AIUI的體驗(yàn)越來越完美。”趙艷軍說。
智能生活更進(jìn)一步
語音交互技術(shù)的進(jìn)步并不是孤立呈現(xiàn)的,它在智能機(jī)器人與人類溝通功能的提升中所做的貢獻(xiàn)功不可沒。這一貢獻(xiàn)體現(xiàn)在智能設(shè)備適用人群范圍擴(kuò)大以及領(lǐng)域拓寬。比如,隨著智能設(shè)備和網(wǎng)絡(luò)的普及,越來越多的老齡人群、低齡人群、身體殘障人群使用智能設(shè)備。對(duì)于這些人群,觸控的交互方式并不方便,語音交互則突破了年齡障礙。甚至,有人曾經(jīng)預(yù)測(cè),語音交互可能會(huì)成為繼搜索引擎、瀏覽器、智能手機(jī)OS之后,第四代的入口。
同時(shí),依托云技術(shù)以及大數(shù)據(jù)的發(fā)展,智能語音技術(shù)的迭代和優(yōu)化速度也在加快。智能機(jī)器人、智能車載、智能家電等領(lǐng)域的多款產(chǎn)品都可以依托這一技術(shù)。