盡管具體的相關(guān)話題不斷變化,但對(duì)Deepseek的討論至今熱度不減,不知道你家樓下小飯館的老板,是不是也在考慮用DeepSeek來?yè)Q新自家二十年沒有變過的菜單?
當(dāng)然,話題變遷的路徑依舊清晰可見,從人工智能業(yè)內(nèi)開始、從專業(yè)人士開始、從對(duì)“低成本”的驚嘆開始。
丁科技網(wǎng)注意到,一個(gè)有意思的現(xiàn)象是,DeepSeek的出現(xiàn)雖然演繹了低成本神話,看起來是對(duì)規(guī)模定律的打破,站在AI創(chuàng)新背后、提供基礎(chǔ)設(shè)施的云廠商們也都在積極擁抱他,但于此同時(shí),全球頭部云廠,對(duì)算力的投入看起來非但沒有減少,反而還要繼續(xù)增加。
(截圖自DeepSeek | 深度求索)
從公開信息來看,特別是作為全球“一哥”和中國(guó)“一哥”的兩家:
亞馬遜計(jì)劃在2025年投入1000億美元,主要用于云業(yè)務(wù),作為主要載體的應(yīng)當(dāng)依舊是從2024年以來明顯加碼AI領(lǐng)域的亞馬遜云科技;阿里巴巴計(jì)劃在未來三年投入535億美元,用于云和AI硬件基礎(chǔ)設(shè)施,這據(jù)說超過過去十年的總和。
另外,從公開信息看,微軟、谷歌也計(jì)劃增資。比如,微軟提到的AI算力產(chǎn)能有限,因此在加大投資力度;谷歌也提到增加AI產(chǎn)品產(chǎn)能。
就丁科技網(wǎng)的理解,這背后可能有如下幾點(diǎn)原因:
先就DeepSeek角度來看,“低成本”可能不是事實(shí)的全部。
通常被關(guān)注的信息是,DeepSeek-V3以不到OpenAIGPT-4o模型的訓(xùn)練成本的十分之一(大約是558萬(wàn)美元),實(shí)現(xiàn)了接近的性能。不過,同時(shí)需要注意的是,DeepSeek在V3模型技術(shù)報(bào)告中指出了一個(gè)事實(shí),就是“558萬(wàn)美元不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的前期研究和消融實(shí)驗(yàn)的成本”。也就是說,約558萬(wàn)美元的金額,屬于凈算力成本。
如果從更長(zhǎng)的時(shí)間線來看,DeepSeek母公司幻方量化在2019年的深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火二號(hào)”搭載約1萬(wàn)張英偉達(dá)A100顯卡,這在當(dāng)時(shí)已經(jīng)算“先進(jìn)”了。
所以,一些可見的專業(yè)解讀認(rèn)為,DeepSeek給到行業(yè)最大的意義是算法創(chuàng)新提高了資源的利用率,而不是顛覆掉通過增加算力提升模型性能的現(xiàn)有規(guī)律,另外就是開源實(shí)現(xiàn)的友好性。
再?gòu)娜蝾^部云廠角度來看,應(yīng)該有三點(diǎn)訴求。
其一是推出更多可能更好的模型。不難發(fā)現(xiàn),在DeepSeek看起來橫空出世之后,同樣作為模型大廠的全球頭部云大廠基本都在對(duì)標(biāo),大有加快創(chuàng)新節(jié)奏的感覺,DeepSeek很像是在帶來“鯰魚效應(yīng)”。全球頭部云廠在嘗試推出更多可能更好的模型,來應(yīng)對(duì)之后的風(fēng)險(xiǎn),為可能的競(jìng)爭(zhēng)持續(xù)加碼。
在丁科技網(wǎng)看來,這里還有三個(gè)細(xì)節(jié)原因,一是,DeepSeek模型并不算是全面領(lǐng)先;二是,全球頭部云大廠大概率也有規(guī)模定律未失效的判斷;三是,多模型應(yīng)用才是客戶在現(xiàn)實(shí)中解決問題時(shí)的常態(tài),這代表依然有很多未被看到的機(jī)會(huì)。
DeepSeek用相對(duì)少的資源、更創(chuàng)新的算法以及開源的態(tài)度贏得了關(guān)注,那么如果是創(chuàng)新算法、開源再加上更為豐富的算力和訓(xùn)練參數(shù)呢?在丁科技網(wǎng)看來,云大廠們沒理由不這么想。
其二是應(yīng)對(duì)對(duì)后續(xù)AI應(yīng)用可能更大爆發(fā)的支持。去年以來有算力成本下降的趨勢(shì),以阿里云為代表,在持續(xù)推動(dòng)云服務(wù)降價(jià)、大模型降價(jià),受益于此,一方面是AI應(yīng)用更多出現(xiàn),另一方面是AI應(yīng)用的能力持續(xù)增強(qiáng),隨之而來的是AI應(yīng)用用戶增加,那么,對(duì)算力的消耗其實(shí)應(yīng)該是會(huì)明顯增加的。
其三是對(duì)相關(guān)服務(wù)使用的支持。從趨勢(shì)來看,更多企業(yè)會(huì)將模型從應(yīng)用實(shí)踐推向真實(shí)生產(chǎn),這就不僅涉及模型本身,還會(huì)涉及大量云服務(wù)的相關(guān)算力支持。(丁科技網(wǎng)原創(chuàng),轉(zhuǎn)載務(wù)必注明“來源:丁科技網(wǎng)”)
- QQ:61149512