沒女朋友?來個機(jī)器人女友怎么樣
2015-02-01 16:04:41

編者按:日前,美聯(lián)社使用機(jī)器人撰寫出了一篇關(guān)于蘋果公司一季度財(cái)報(bào)的新聞,而美聯(lián)社半年前就開始采用機(jī)器人記者,它每個季度撰寫3000篇這樣的新聞報(bào)道,而且這個數(shù)字有望增加。機(jī)器人使用場景越來越多,滲透到人們工作生活的各個方面,話說找不到女朋友的男人們,是否可以找一個機(jī)器人女友呢(不是充氣娃娃哦)?讀完這篇文章,你會發(fā)現(xiàn),一切皆有可能。


電影《Her》里,語音交互成為普遍的交互方式:孤獨(dú)的作家西奧多,有語音操控的隨身計(jì)算設(shè)備,用語音撰寫感人的書信安撫受傷人,還找到了“機(jī)器人女友”莎曼薩。

作為一個懶人,每次看這部電影,都對語音交互充滿期待。這一天真的就那么遠(yuǎn)么?造出機(jī)器人女友真要到電影里的2025年么?


造出莎曼薩需要分幾步

打造莎曼薩這樣的機(jī)器人,本質(zhì)上是建立一套自然語言操作系統(tǒng)。這背后最重要的工作應(yīng)該是自然語言處理,主要包括:語音識別、語義分析、語音合成。

模擬出像莎曼薩那樣迷人的聲音,就是語音合成。這個過程其實(shí)可以理解成語音識別的反過程。現(xiàn)在有不少開源的項(xiàng)目,簡單合成并不困難,但是如果要合成和具體某個人的聲音,就需要個性化定制了。

僅有語音識別、語義分析、語音合成這些初級技能,薩曼莎肯定就像一般韓劇里的女主,顏值超高,智商超低。要真正討人喜歡,還需要自然語言搜索、智能推薦這些高階技能。

這個看起來挺抽象,舉幾個例子就很容易懂了。

語音識別:語音輸入法、微信的聲音轉(zhuǎn)文字就是最典型的案例。

語義分析:Siri、微軟小冰、小娜就是比較典型的案例了。

自然語言搜索:比如Moto360視頻里展示的語音提問、搜索。

智能推薦:還沒有看到明顯的案例,像《Her》里莎曼薩那樣主動提供建議,這個還是有點(diǎn)難度的。Google現(xiàn)在也在做這個,當(dāng)你達(dá)到某個地點(diǎn)時(shí),會主動語音推薦一些可能你需要的東西。


造出莎曼薩還有哪些困難要解決

要造出莎曼薩,當(dāng)然不是一件容易事,還有很多問題要解決。

一、語音識別

1、算法

最近幾年,算法方面基本有了定論,深度學(xué)習(xí)(DNN、RNN)已經(jīng)成為核心算法,但是還沒有大規(guī)模的實(shí)踐,而且有好多問題要解決。

(1)噪音:人在噪音環(huán)境下,也很難聽清楚別人在說什么。而算法只能解決部分問題。之前小魚在家的CEO宋程楓就表示他們花費(fèi)了大量的人力物力財(cái)力解決噪音問題。

(2)方言:這個就果斷不解釋了。你確定你能聽懂全國各地方言么?更何況是機(jī)器呢。

(3)遠(yuǎn)場:聲音的傳播會隨著距離指數(shù)衰減。當(dāng)人距離聲源遠(yuǎn)時(shí),可能就很難聽清,機(jī)器也一樣。

2、數(shù)據(jù)

機(jī)器學(xué)習(xí)是現(xiàn)階段最好的方法,但需要大量的數(shù)據(jù)訓(xùn)練模型和機(jī)器,一般往往需要上萬小時(shí)的聲學(xué)、語音數(shù)據(jù)學(xué)習(xí)。聲學(xué)數(shù)據(jù)可以從網(wǎng)上挖掘,但都是通用的數(shù)據(jù)資料。而要做得深入、更好用,還需要某個領(lǐng)域的垂直的數(shù)據(jù),這可能就需要企業(yè)自己去搜集數(shù)據(jù)。

3、工程

語音識別其實(shí)是一個浩大的工程,涉及到:大規(guī)模訓(xùn)練、CPU/GPU集群、云端實(shí)時(shí)識別等。要做到這些都不容易。如果是移動端,還需要考慮在線/離線結(jié)合的問題,同時(shí)適配眾多的手機(jī)機(jī)型,這一點(diǎn)也不容易。

二、語義分析

1、算法

我們說的話往往是口語,同樣一句話有可能有十種說法。比如,可能會說“我想去從東直門去西直門”,也可能會是“去西直門,從東直門”。人很容易理解這些,但對機(jī)器來說,就太難了。

另外,與語音識別類似,NLP處理也要做很多領(lǐng)域的定制的結(jié)構(gòu)化的學(xué)習(xí)方法。很多時(shí)候,人類都無法正確、準(zhǔn)確的描述問題,很難從對話中或者直接搜索得到他想要的確切信息。這就會增加機(jī)器理解語義的難度。這種時(shí)候就只能一邊猜,一邊問了,用戶體驗(yàn)就會下降。

2、數(shù)據(jù)

機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)學(xué)習(xí),但目前還缺乏INDOMAIN的標(biāo)注數(shù)據(jù)。有些時(shí)候,一個詞就可以指代不同的東西;有些時(shí)候,一個固定的聲音,還會有不同的文字和解釋。比如,中文的shangwujiudian,既可以理解成上午9點(diǎn),也可以理解成商務(wù)酒店;英文的buy和by同音,但意義并不同;用戶說周杰倫時(shí),既有可能是想知道周杰倫的歌,也可能是想看周杰倫的百科。同時(shí),目前現(xiàn)有的自然語言的數(shù)據(jù)質(zhì)量比較差,還需要做篩選,什么樣的可以用,什么不能用。

另外,現(xiàn)有的數(shù)據(jù)還不足以建立起大規(guī)模的知識圖譜,還需要挖掘大量的知識,放在庫里,并不斷積累。比如,提到劉德華,一個優(yōu)質(zhì)的知識圖譜,應(yīng)該涵蓋劉德華的生平經(jīng)歷、歌曲、電影等各種資料。

3、工程

自然語言處理的過程比較復(fù)雜。聲音信號轉(zhuǎn)化成文字后,還需要后期處理,比如分詞、分類、糾錯,確定是哪一類信息,明確用戶要做什么事,再找到關(guān)鍵參數(shù)。這些復(fù)雜的流程都對應(yīng)著龐大的工程。


何時(shí)能夠造出莎曼薩?

雖然有不少困難,但目前在語音識別、語義分析方面都還是有進(jìn)展的。

語音識別方面的進(jìn)展是突破性的。深度學(xué)習(xí)最成功的應(yīng)用就是在語音識別上。首先,顯著提高準(zhǔn)確率,并簡化了系統(tǒng),而且可以更有效的利用海量數(shù)據(jù)。據(jù)說語音識別的準(zhǔn)確率已經(jīng)從80%多提升到了90%多。

語義識別方面也有進(jìn)展。2年前,Google發(fā)布“知識圖譜”,為用戶提供有完整知識體系的搜索結(jié)果,為機(jī)器搭建更豐富的知識圖譜。IBM Watson也做過深度問答系統(tǒng),2011年參加智力競賽節(jié)目“Jeopardy!”,戰(zhàn)勝了兩位人類冠軍選手。目前,手機(jī)廠商也推出了比較成熟的語義識別產(chǎn)品,我們最熟悉的就是Google Now、Siri、Cortana。

近幾年,隨著智能硬件興起,在智能車載、智能家居領(lǐng)域,傳統(tǒng)輸入方式受限,語音交互開始被接受,交互技術(shù)逐漸成熟,近幾年語音交互使用量已經(jīng)開始增長,今后2-3年會更普及。但要做出莎曼薩,估計(jì)至少還要10年。


莎曼薩能說中文(普通話)嗎?

這個肯定是可以的。不過,與英文相比,中文(普通話)識別與分析的難度更大。現(xiàn)階段,英文句法分析準(zhǔn)確率能達(dá)到90%以上,但中文只有80%多,這主要還是因?yàn)闈h語太博大精深了。

(1)變調(diào):漢語里兩個以上音節(jié)在連續(xù)的時(shí)候,由于受前后音節(jié)的影響,有些音節(jié)的聲調(diào)會發(fā)生變化。普通話的連讀變調(diào)在上聲字里表現(xiàn)最為突出,識別難度更大。

(2)同音:漢語音節(jié)少,造成的一個后果就是同音字太多,聲音轉(zhuǎn)文本信號的難度增加。

(3)多意:漢語一個字、一個詞往往能表達(dá)多種含義,比如“聞”既可以指嗅,也可以指聽。

(4)沒有形態(tài)變化:比如“建議”,既可以是名詞,也可以是動詞,但英文里就直接用suggest和suggestion兩個詞表示。

(5)難分詞斷句:像“小王死了爸爸”這種句子,斷句不同意義就不同,漢語里有很多。

(6)語序靈活:比如,“海淀橋怎么去,從東直門”在中文里是能被理解的,但在英文里一般有固定的語序。

(7)多成語、俗語、俚語:這個就不解釋了吧,想想我們高考的時(shí)候就天天被虐,機(jī)器的日子估計(jì)也不好過呢。

不過,目前國內(nèi)也有幾家做自然語言處理相關(guān)的創(chuàng)業(yè)公司,比如訊飛、云知聲、出門問問等,一直在做相關(guān)的研究和探索。目前在安靜環(huán)境下特定領(lǐng)域定制過的語音識別系統(tǒng)識別準(zhǔn)確率已經(jīng)相當(dāng)高。但對于語音交互而言語音識別不是瓶頸,對語言的理解更為重要。


最新文章
1
用創(chuàng)意與科技讓音樂無界限 2024悠如音樂樂器創(chuàng)客馬拉松中國賽總決賽舉行
2
“國補(bǔ)”之下,消費(fèi)者年底家電換新熱情高漲,但他們遇到了這些問題……
3
“飛起來”的低空經(jīng)濟(jì)邁向“Next level”
4
光伏企業(yè)境外上市為何持續(xù)升溫?
5
x86的反擊
6
雙十一游戲電視選購攻略,高刷、大屏、畫質(zhì)一個都不能少
7
行業(yè)沉悶太久?小米要給大家電來點(diǎn)“小震撼”
8
諾基亞125 4G功能機(jī)開賣:2.4寸大屏 只要329元
9
Mac新品蓄勢待發(fā)!蘋果3款產(chǎn)品即將停產(chǎn)
10
冰箱保鮮技術(shù)已達(dá)階段天花板?方太用氮?dú)獗ur科技開啟升級新通道
11
快手電商舉行2024華北達(dá)人雙十一啟動會,助力達(dá)人大促GMV高效爆發(fā)
12
CNCC2024:可靈AI用戶已超360萬 獨(dú)立App即將上架
13
增混大電量時(shí)代來臨,寧德時(shí)代以驍遙電池驅(qū)動市場與自身雙增長
14
補(bǔ)齊自研CPU拼圖后,高通統(tǒng)一了PC、手機(jī)、汽車芯片架構(gòu)
15
我國電信業(yè)擴(kuò)大對外開放,哪些行業(yè)將受益?
16
Mini LED背光產(chǎn)線又迎新玩家,助力智能電視行業(yè)逆勢回暖
17
走訪歐洲家電賣場,中外家電賣場竟有這些差異?
18
小米澎湃OS 2蛻變!盧偉冰:一眼快 一眼新
19
終于淘汰LCD!蘋果iPad mini 8首次升級OLED屏幕
20
新冷年+雙11+以舊換新,空調(diào)品質(zhì)換新怎么選?
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512