胡國平:把握好系統(tǒng)性創(chuàng)新的三個關(guān)鍵,科大訊飛堅持源頭創(chuàng)新引領(lǐng)
[釘科技觀察]近日,“第四屆世界聲博會暨2021科大訊飛全球1024開發(fā)者節(jié)”在合肥收官,科大訊飛開放平臺2.0戰(zhàn)略的發(fā)布成為期間重點,意在推進人工智能生態(tài)更好地實現(xiàn)共同繁榮。在開幕式與主論壇環(huán)節(jié),“人工智能技術(shù)源頭創(chuàng)新”被多次提及,代表了科大訊飛一貫的技術(shù)信仰。2.0戰(zhàn)略發(fā)布后,科大訊飛研究院院長胡國平也介紹了技術(shù)生態(tài)順應開放平臺升級做出的變化。胡國平說,科大訊飛堅持在人工智能的技術(shù)層面進行源頭
原創(chuàng)
2021-10-28 18:13:12
來源:釘科技??
作者:建輝

[釘科技觀察]近日,“第四屆世界聲博會暨2021科大訊飛全球1024開發(fā)者節(jié)”在合肥收官,科大訊飛開放平臺2.0戰(zhàn)略的發(fā)布成為期間重點,意在推進人工智能生態(tài)更好地實現(xiàn)共同繁榮。在開幕式與主論壇環(huán)節(jié),“人工智能技術(shù)源頭創(chuàng)新”被多次提及,代表了科大訊飛一貫的技術(shù)信仰。2.0戰(zhàn)略發(fā)布后,科大訊飛研究院院長胡國平也介紹了技術(shù)生態(tài)順應開放平臺升級做出的變化。

66.jpg

胡國平說,科大訊飛堅持在人工智能的技術(shù)層面進行源頭技術(shù)的突破和多技術(shù)的融合,來推動實現(xiàn)系統(tǒng)性創(chuàng)新。

在科大訊飛的理解中,系統(tǒng)性創(chuàng)新有三個關(guān)鍵要素:一是重大系統(tǒng)性命題到科學問題的轉(zhuǎn)化能力;二是從單點的核心技術(shù)效果上取得突破,跨過應用門檻;三是把創(chuàng)新鏈條上各個關(guān)鍵技術(shù)深度融合,最終實現(xiàn)真正意義上的系統(tǒng)性創(chuàng)新。

階段行動來看,科大訊飛重點關(guān)注四大源頭技術(shù):端到端的建模,解決分段建模式的信息損失問題;無監(jiān)督訓練,實現(xiàn)用更少的數(shù)據(jù)獲得更好的效果;多模態(tài)融合,充分利用多維多元信息;外部知識融合,把人類的常識、知識融入到算法模型的構(gòu)建中。

具體來看:

端到端建模。在深度學習的框架下,端到端的建模可以有效的緩解分段建模所帶來的信息損失,以及錯誤的級聯(lián)傳播問題。

訊飛首先把端到端建模技術(shù)成功應用到了復雜場景下的語音識別,構(gòu)建了前后端一體化的語音識別系統(tǒng),提高復雜場景下的語音識別效果;另外把端到端建模的技術(shù)成功運用到語音的翻譯任務上,實現(xiàn)了CATT語音翻譯技術(shù),該技術(shù)可以把一個語種的語音輸入自動識別并翻譯成另外一個語種的文本進行輸出,實現(xiàn)了語音識別和機器翻譯任務的統(tǒng)一建模,緩解語音識別錯誤對翻譯效果的影響。

無監(jiān)督訓練。包括弱監(jiān)督、半監(jiān)督等一系列創(chuàng)新。旨在破解對大規(guī)模無監(jiān)督訓練數(shù)據(jù)的依賴造成的人工智能突破瓶頸。

無監(jiān)督訓練在語音合成上的應用,就有為了降低對語音合成音庫的規(guī)模,提出來的聽感量化的編碼的方法,借助語音識別數(shù)據(jù),以其他人的語音合成音庫來實現(xiàn)多人的混合模型的訓練,只需要少量發(fā)音人的數(shù)據(jù),就可以實現(xiàn)這樣發(fā)音人的高音質(zhì)語音合成。今年進一步提出了全屬性可控語音合成方法,實現(xiàn)了從海量語音數(shù)據(jù)中無監(jiān)督的學習發(fā)音內(nèi)容、情感和音色這三個屬性,并且使用信息約束訓練,使得三個屬性相互結(jié)合,可以實現(xiàn)對音色、情感等屬性的自由控制。

訊飛的語音識別有35個語種的識別的識別率,從80%進一步提升到了90%,而語音合成的24個語種的自然度也從3.5分提升到了4.0分。同樣也在語種的機器翻譯,多語種的圖文識別上都取得了顯著進步,在6個少數(shù)民族語言方面也實現(xiàn)了同樣的技術(shù)進步,跨過了使用門檻。

另外一個重要應用領(lǐng)域,就是基于弱監(jiān)督的句子級的語義表達?;谶@樣一個框架,以及在易訓的模型技術(shù)上的一些積累,完成了中文、粵語以及6個少數(shù)民族的相關(guān)模型,推動少數(shù)民族語言的認知智能等相關(guān)技術(shù)的研發(fā)。

多模態(tài)融合。人機交互是多模態(tài)融合的典型應用場景。

一個多模態(tài)融合的例子是復雜文檔的結(jié)構(gòu)化。比如考試中的一份試卷,具有各種各樣的題目、表格、插圖,以及學生手寫的的答題信息等等。科大訊飛基于多模態(tài)信息融合的技術(shù),不僅使用題目中的相關(guān)的語義的信息,還用到了各種版面的特征,例如“表示質(zhì)地大小”這樣的視覺特征,“表示縮進居中”這樣的空間特征等等,最終實現(xiàn)了不同場景下文檔結(jié)構(gòu)化的精度的提升。類似于教育場景下的教輔作業(yè)的語義結(jié)構(gòu)化的精度,從原來92%提升到了98%。同樣的技術(shù)被推廣到了更多的行業(yè)文檔,例如合同、簡歷、文書等等上,旨在為開發(fā)者在自己不同的行業(yè)領(lǐng)域開展智能化文檔處理提供更好的技術(shù)支撐。

外部知識融合。現(xiàn)在大部分的深度學習的模型都是基于有監(jiān)督或者大量的無監(jiān)督的數(shù)據(jù)訓練出來的,但是從智能系統(tǒng)的角度來說,人類的知識其實是一個非常重要的信息來源。

這方面訊飛做了兩個關(guān)鍵的技術(shù)突破。一是在語音交互任務中,把人類的常識、知識總結(jié)為事理圖譜,融入到整個交互的系統(tǒng)中,從而實現(xiàn)機器能夠與人的主動交互。二是使用海量的人類已有的醫(yī)學文獻知識,提高機器的自動診療的準確率,訊飛把各種醫(yī)學文獻知識進行了結(jié)構(gòu)化處理,形成了醫(yī)學的知識圖譜,并且使用圖神經(jīng)網(wǎng)絡(luò)對于圖譜進行編碼,這樣就可以基于深度實時的推理網(wǎng)絡(luò),從知識和病歷兩個視角進行注意力的交互學習,綜合決策給出最終的治療結(jié)果,類似的實踐也出現(xiàn)在了教育、司法等領(lǐng)域。

以上單點技術(shù)上持續(xù)進步外,訊飛也關(guān)注三個方面的系統(tǒng)層面的技術(shù)挑戰(zhàn),畢竟人工智能往往是一個復雜的系統(tǒng);一是面向全局目標的技術(shù)架構(gòu)的解析能力;二是全鏈條貫穿的多技術(shù)融合創(chuàng)新能力;三是基于人機耦合復雜系統(tǒng)的自進化能力。

胡國平還介紹了三個具體的復雜系統(tǒng)的構(gòu)建的案例。

一是以低延時下的多技術(shù)融合的語音同傳系統(tǒng)為例,解釋面向全局目標技術(shù)架構(gòu)的能力。訊飛已經(jīng)建立模型,端到端的實現(xiàn)了從語音到文本的自動翻譯;接著是把傳統(tǒng)句子級別的語音合成系統(tǒng)改造為流式的語音合成,對實時輸入的片段文本進行合成;同時實現(xiàn)基于一句話的語音合成系統(tǒng)的音色遷移,使得合成的語音人能夠保持原始說話人的音色,實現(xiàn)更好的同傳體驗;為提高類似于大會演講上語音識別和翻譯的效果,還進一步把大會演講PPT中的文字全部OCR(特別是相關(guān)的專業(yè)術(shù)語),并且實時送入語音識別系統(tǒng)進行實時的優(yōu)化,最終在盡可能保證翻譯效果的同時實現(xiàn)低延時的同傳翻譯。目前訊飛最新的翻譯系統(tǒng)的平均延時已經(jīng)從原來的8秒下降到4秒。

二是新推出來的多模態(tài)虛擬人交互系統(tǒng)。虛擬人的交互需要集成語音識別、對話理解、對話生成、語音合成、虛擬人形象生成等等多項的人工智能單點技術(shù),需要實現(xiàn)全面和技術(shù)貫穿,才能實現(xiàn)更一致更和諧的虛擬人交互系統(tǒng)。

以情感維度為例,訊飛實現(xiàn)了基于多模態(tài)信息的情緒感知,基于情緒的回復對話文本生成以及可展現(xiàn)對應情緒的虛擬人的表情和語音合成。基于全局的系統(tǒng)性的規(guī)劃設(shè)計,以及全鏈條單點技術(shù)的有效配合,造就愛加有情感、有個性的多模態(tài)虛擬人。

三是訊飛自研系統(tǒng)。以科大訊飛所研發(fā)的智醫(yī)助理的系統(tǒng)為例,智醫(yī)助理系統(tǒng)在基層醫(yī)生的診斷過程中就直接提供包括診斷建議、合理用藥、進一步問診問題等核心的功能,幫助基層醫(yī)生實現(xiàn)更好的診療。同時,當現(xiàn)場的基層醫(yī)生和機器診斷結(jié)果不一致的時候,系統(tǒng)還會將病歷轉(zhuǎn)移到上級的醫(yī)院進行更進一步的診斷。系統(tǒng)也會持續(xù)的收集基層醫(yī)生和專家醫(yī)生的在整個交互過程中的這種反饋信息,用于系統(tǒng)的實時進化。兩年以來,智醫(yī)助理和所服務的2萬多基層醫(yī)生的2.9億次的持續(xù)互動,機器的自動診斷的正確率從95%進一步提升了97%?;鶎俞t(yī)生的診療水平在機器輔助下,從70%提升到了90%。

胡國平說,訊飛AI系統(tǒng)和醫(yī)生實現(xiàn)了相互啟發(fā)、相得益彰、共同進步,實現(xiàn)了人機耦合復雜系統(tǒng)的持續(xù)進化。類似的自進化機制,也同樣在個性化學習、語音交互、語音翻譯等領(lǐng)域?qū)崿F(xiàn)了成功應用,推動了科大訊飛相關(guān)產(chǎn)品和系統(tǒng)的持續(xù)進步。

再向更遠的源頭,科大訊飛人也在包括腦科學、數(shù)學、量子等學科方面進行了長期的基礎(chǔ)研究的布局。(釘科技根據(jù)胡國平在“2021科大訊飛1024全球開發(fā)者節(jié)”上的發(fā)言整理并原創(chuàng),轉(zhuǎn)載務必注明“來源:釘科技”)

最新文章
1
2025快手磁力大會:加速“生成新商業(yè)”,AI全面重塑商業(yè)經(jīng)營
2
三星推出AI神家電,中國家電的AI智慧生活解決方案何時到來?
3
索尼集團成員Aniplex上海線下店煥新開業(yè),開創(chuàng)IP+沉浸互動新空間
4
2025中國國際消費電子博覽會(CICE)德國推介會在柏林成功舉辦
5
DeepSeek的低成本神話后,云大廠們?yōu)楹芜€要增加算力投入
6
AI智啟生活 第15屆深圳國際移動電子展亮點“劇透”
7
4年前理想李想和特斯拉陶琳說的話,值得所有人深思
8
TCL上新Mini LED電視,T7L為何“最能打”,Q9L為何“最值得買”?
9
八年前用A9帶火屏幕發(fā)聲技術(shù)的索尼,今年會有OLED新品嗎?
10
海信視像發(fā)布2024年可持續(xù)發(fā)展報告:以綠色科技推動可持續(xù)發(fā)展
11
都叫“養(yǎng)鮮”冰箱,格力、容聲有啥不一樣?
12
財報觀察:2024全球智能家電銷量第一品牌,講好新故事?
13
續(xù)航滅霸 +倍強大 vivo Y300 Pro+正式發(fā)布
14
BOE(京東方)f-OLED柔性顯示技術(shù)策源地論壇舉辦 攜手中關(guān)村論壇共筑科技創(chuàng)新高地
15
海信視像2024年營收凈利雙增,高端穩(wěn)步增長,蟬聯(lián)世界第二
16
精裝修熱水系統(tǒng)市場外資占優(yōu),高端住宅需求點燃新增長(2025年1-2月)
17
AI家電:技術(shù)狂歡還是實用革命?
18
中國半導體并購潮起
19
小家電市場表現(xiàn)低迷,2025年小家電市場面臨嚴峻挑戰(zhàn)
20
全球首款!新型手機OLED面板問世:可發(fā)聲、會變形
關(guān)于我們

微信掃一掃,加關(guān)注

商務合作
  • QQ:61149512