百度首席科學家吳恩達
新浪科技訊 11月22日下午消息,百度今日宣布開放四項全新語音技術的接口,幫助用戶提升在使用語音與機器進行交流時的交互體驗,該決定恰逢百度語音開放平臺上線3周年。
百度首席科學家吳恩達介紹了這四項語音技術,分別是情感合成、遠場方案、喚醒二期技術和長語音方案。
“這些技術有很大的潛力,去徹底改變?nèi)藱C交互的效率和辦法。未來語音技術在很多應用場景有很好的機會,將為人機交互帶來巨大的改變?!眳嵌鬟_表示。
具體方面,這些技術旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關鍵問題。例如,百度情感合成技術主要聚焦在為合成語音“加入情感”,目前可達到接近真人發(fā)聲效果,百度今年早些時候曾利用此技術,復原已逝明星張國榮的聲音。
類似地,開發(fā)者還可以利用新的接口,使語音識別距離增加到3-5米,將設備的語音喚醒率提升到95%以上同時更省電誤報更少,或提升長時間語音識別的準確率問題。這將為語音技術帶來遠比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,前兩者的代表是百度的“小度機器人人機語音交互點餐”,已在上海肯德基旗艦店投入應用,可遠距離隨時應答點餐。后者則已經(jīng)在諸多內(nèi)容記錄、智能客服、視頻轉(zhuǎn)寫等場景實現(xiàn)應用。
此前,百度語音開放平臺已經(jīng)在手機、家電、汽車和通訊服務等多領域?qū)崿F(xiàn)合作覆蓋,具體合作伙伴包括聯(lián)想、中興、長虹、康佳、SONY、特斯拉、途勝、惠普、艾米通訊、攜程,及手機QQ閱讀等。
公開資料顯示,百度語音開放平臺上線于2013年10月,目前每日在線語音識別要求1億4千萬,在線語音合成每日請求達2億,開發(fā)者數(shù)量超過14萬。
值得一提的是,在吳恩達及其團隊的研發(fā)下,百度語音識別準確率目前已高達97%,深度語音識別系統(tǒng)Deep Speech 2還入選了 MIT 2016十大突破技術。(李根)
- QQ:61149512