亚洲人成在线午夜激情电影,狠狠综合久久久久尤物,亚洲欧美国产专区

首頁(yè)家居家電手機(jī)數(shù)碼 IT互聯(lián)網(wǎng)電商零售汽車出行游戲娛樂(lè)半導(dǎo)體新基建酷品評(píng)測(cè)

2024-01-04 10:54:35

來(lái)源：中國(guó)電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng) 宋婧??

計(jì)算機(jī)視覺(jué)正在邁入“大模型時(shí)代”。前不久，來(lái)自UC伯克利計(jì)算機(jī)視覺(jué)領(lǐng)域的三位知名學(xué)者（Trevor Darrell、Jitendra Malik、Alexei A. Efros）聯(lián)手推出了第一個(gè)無(wú)自然語(yǔ)言的純視覺(jué)大模型（Large Vision Models），并第一次證明了純視覺(jué)模型本身也是可擴(kuò)展的（scalability）。隨后，谷歌、微軟等國(guó)際大廠公布了對(duì)視覺(jué)大模型的探索，國(guó)內(nèi)百度、華為、商湯、智源、中國(guó)電信、美圖等多家公司也都展示了相關(guān)布局。繼自然語(yǔ)言大模型之后，視覺(jué)大模型會(huì)成為下一個(gè)風(fēng)口嗎？

視覺(jué)大模型的訓(xùn)練難度更高

也許很多人會(huì)疑問(wèn)：在遍地都是大模型的今天，訓(xùn)練出一個(gè)優(yōu)質(zhì)的視覺(jué)大模型很難嗎？隨著大語(yǔ)言模型的爆發(fā)，不管是學(xué)術(shù)界還是業(yè)界，都開(kāi)始嘗試使用“文本”來(lái)擴(kuò)大視覺(jué)模型的規(guī)模。以“蘋(píng)果”為例，在訓(xùn)練時(shí)只需給模型看“蘋(píng)果”的照片，并配上描述性的文字告訴模型“這是一個(gè)蘋(píng)果”。然而，在面對(duì)更加復(fù)雜的圖片時(shí)，就很容易忽略其中大量的信息，造成錯(cuò)誤理解。比如，一面鏡子中倒映的車輛可能會(huì)被模型誤判為真實(shí)車輛。

“相比于大語(yǔ)言模型，視覺(jué)信息一般都是2維（圖像）、3維（立體圖像）或者4維（立體視頻）信息，比語(yǔ)言信息多了1-3個(gè)維度，難度等級(jí)呈指數(shù)增長(zhǎng)?！币晃簧罡鸄I深度學(xué)習(xí)的專家說(shuō)道。

業(yè)內(nèi)人士普遍認(rèn)為，視覺(jué)并非自然語(yǔ)言，作為基本視覺(jué)單元的像素距離高層語(yǔ)義更遠(yuǎn)，找不到像“單詞”這樣離散化、符號(hào)化的基本語(yǔ)義單元，因此簡(jiǎn)單地借鑒預(yù)訓(xùn)練語(yǔ)言模型的實(shí)現(xiàn)方法恐難奏效。

視覺(jué)句子使我們能夠?qū)⒏鞣N視覺(jué)數(shù)據(jù)格式化為圖像序列的統(tǒng)一結(jié)構(gòu)

賽迪顧問(wèn)人工智能產(chǎn)業(yè)研究中心常務(wù)副總經(jīng)理鄒德寶向記者介紹說(shuō)道：“視覺(jué)大模型是一種利用深度學(xué)習(xí)技術(shù)來(lái)進(jìn)行圖像或視頻處理的算法模型。它的基本原理是基于神經(jīng)網(wǎng)絡(luò)，通過(guò)大規(guī)模的訓(xùn)練數(shù)據(jù)集和高性能的計(jì)算硬件，實(shí)現(xiàn)對(duì)圖像信息的高效處理和理解?！?/p>

與語(yǔ)言模型相比，視覺(jué)模型的數(shù)據(jù)更難獲取。對(duì)于語(yǔ)言模型來(lái)說(shuō)，語(yǔ)言數(shù)據(jù)對(duì)所有數(shù)據(jù)都有一個(gè)自然的、統(tǒng)一的一維結(jié)構(gòu)——文本流，獲得大量的、多樣化的大數(shù)據(jù)集相對(duì)而言是件很容易的事，所以目前市面上的語(yǔ)言大模型動(dòng)輒就是成千上萬(wàn)億的參數(shù)規(guī)模。

然而在計(jì)算機(jī)視覺(jué)領(lǐng)域，不同的數(shù)據(jù)源都有不同的結(jié)構(gòu)，想要擁有同樣規(guī)模和多樣性的數(shù)據(jù)源非常困難。華為云人工智能首席科學(xué)家田奇表示，視覺(jué)模型提取特征可能是百倍、千倍的工作量，信息密度非常低?；ㄙM(fèi)的成本、數(shù)據(jù)存儲(chǔ)等開(kāi)銷巨大。

除了數(shù)據(jù)獲取難，視覺(jué)大模型的訓(xùn)練框架也是一大難點(diǎn)。大華股份先進(jìn)技術(shù)研究院院長(zhǎng)殷俊表示，在視覺(jué)領(lǐng)域沒(méi)有可參照的模型架構(gòu)，和現(xiàn)在大眾認(rèn)知的AGI、AIGC技術(shù)方向存在差異，在CV（Computer Vision計(jì)算機(jī)視覺(jué)）領(lǐng)域完全靠自己搭建。

“如何處理更復(fù)雜的圖像信息，獲取高分辨率的圖像并讓機(jī)器識(shí)別圖像各要素，這些技術(shù)難點(diǎn)不解決，很難打造出一個(gè)優(yōu)質(zhì)的視覺(jué)大模型。”鄒德寶坦言。

或?qū)⒃诠I(yè)制造場(chǎng)景率先落地

近年來(lái)，伴隨制造業(yè)加速轉(zhuǎn)型升級(jí)，智能制造已經(jīng)成為人工智能技術(shù)在工業(yè)領(lǐng)域中最典型的應(yīng)用之一。據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院信息化與軟件產(chǎn)業(yè)研究所數(shù)字經(jīng)濟(jì)戰(zhàn)略研究室主任高嬰勱介紹，人工智能技術(shù)能夠幫助機(jī)器通過(guò)圖像學(xué)習(xí)、聲音識(shí)別、感知監(jiān)測(cè)等方式，快速、準(zhǔn)確地檢測(cè)產(chǎn)品，在減少人工質(zhì)檢成本、提升產(chǎn)品質(zhì)量和生產(chǎn)效益方面的作用顯著，在手機(jī)、家電、汽車等離散制造行業(yè)質(zhì)檢環(huán)節(jié)中的應(yīng)用漸成規(guī)模。

視覺(jué)大模型或?qū)⒙氏嚷涞卦诠I(yè)制造領(lǐng)域。寧德時(shí)代首席制造官倪軍曾提出“極限制造”的概念。他表示，工業(yè)領(lǐng)域做到6σ（每百萬(wàn)個(gè)產(chǎn)品里頭有一兩個(gè)不良品）遠(yuǎn)遠(yuǎn)不夠，而是需要做到9σ-12σ，即對(duì)不良品的要求上升到十億級(jí)，每十億個(gè)產(chǎn)品當(dāng)中，只允許出現(xiàn)1-3個(gè)不良品，這對(duì)機(jī)器視覺(jué)廠商是個(gè)極大的挑戰(zhàn)。而如今有了視覺(jué)大模型的助力，“極限制造”或許有機(jī)會(huì)走進(jìn)現(xiàn)實(shí)。

Meta開(kāi)源DINOv2視覺(jué)大模型

事實(shí)上，很多工業(yè)制造場(chǎng)景都為視覺(jué)大模型提供了落地的可能。試想一下，如果給智能網(wǎng)聯(lián)汽車配備上視覺(jué)大模型，困擾自動(dòng)駕駛多年的視覺(jué)感知問(wèn)題可能會(huì)迎刃而解。具備強(qiáng)大的圖像處理和識(shí)別能力的視覺(jué)大模型，可以更為精準(zhǔn)地識(shí)別車輛、行人、車道線等道路元素，并處理城市道路、高速公路、雨雪天氣等更加復(fù)雜的場(chǎng)景和環(huán)境，從而提高自動(dòng)駕駛車輛在各種場(chǎng)景下的適應(yīng)性和魯棒性。智能網(wǎng)聯(lián)汽車將會(huì)迎來(lái)更多可能性。

如果讓工業(yè)機(jī)器人搭載上視覺(jué)大模型，它可以模仿人類視覺(jué)系統(tǒng)的工作原理，對(duì)視覺(jué)數(shù)據(jù)進(jìn)行更為精準(zhǔn)的處理和分析，進(jìn)一步破解工業(yè)機(jī)器人操作和控制“精度”的難題，還能不斷進(jìn)行學(xué)習(xí)成長(zhǎng)，讓工業(yè)機(jī)器人加速走向“具身智能”，也讓智能制造邁上新的臺(tái)階。

再比如在工業(yè)質(zhì)檢領(lǐng)域，產(chǎn)品質(zhì)檢涉及到大量數(shù)據(jù)和復(fù)雜的圖像、聲音、視頻等信息，要求模型能夠準(zhǔn)確地識(shí)別和分析各種缺陷和問(wèn)題，甚至是微小的變化。用工業(yè)知識(shí)和工業(yè)數(shù)據(jù)訓(xùn)練出來(lái)的視覺(jué)大模型可以捕捉到產(chǎn)線上工藝流程和設(shè)備運(yùn)行等細(xì)節(jié)，大幅提升工業(yè)質(zhì)檢的效率與水平。

不過(guò)，現(xiàn)階段來(lái)看，視覺(jué)大模型在工業(yè)領(lǐng)域的應(yīng)用仍處于早期階段，落地還面臨很多挑戰(zhàn)。例如，視覺(jué)大模型的訓(xùn)練和部署需要大量的數(shù)據(jù)和計(jì)算資源，而這在某些工業(yè)環(huán)境中可能難以滿足。工業(yè)數(shù)據(jù)敏感性高、特殊性強(qiáng)，對(duì)大量實(shí)時(shí)數(shù)據(jù)、多種類型數(shù)據(jù)、異常數(shù)據(jù)的處理和分析，是一項(xiàng)異常復(fù)雜的工作，同時(shí)數(shù)據(jù)安全保護(hù)也是一大難題。此外，視覺(jué)大模型的準(zhǔn)確性、穩(wěn)定性和可靠性也需要在實(shí)際應(yīng)用中進(jìn)行不斷地驗(yàn)證和優(yōu)化。

視覺(jué)大模型要追求“大一統(tǒng)”？

“在視覺(jué)模型設(shè)計(jì)領(lǐng)域中，追求大和統(tǒng)一，已經(jīng)成為當(dāng)下公認(rèn)的重要研究方向?！睍缫曆芯吭褐魅窝芯繂T張祥雨表示。在他看來(lái)，構(gòu)建大而通用的模型的好處在于“大反而簡(jiǎn)單”。

所謂的“大”，不僅指模型更深（越深的神經(jīng)網(wǎng)絡(luò)具有越多的參數(shù)、越強(qiáng)的非線性，可以建模更加復(fù)雜的任務(wù)），更加強(qiáng)調(diào)利用更多的數(shù)據(jù)和算力幫助人們解決通用問(wèn)題，期望用統(tǒng)一的模型解決多個(gè)模態(tài)、多個(gè)任務(wù)。

除了“大”，“統(tǒng)一”也是一個(gè)研究方向。追求通用框架的意義在于可以大規(guī)模地從數(shù)據(jù)中學(xué)習(xí)知識(shí)，無(wú)需針對(duì)每個(gè)任務(wù)單獨(dú)設(shè)計(jì)一套系統(tǒng)，避免引入大量人工，可擴(kuò)展性強(qiáng)。從宏觀的角度來(lái)說(shuō)，想要解決通用人工智能問(wèn)題，首先需要實(shí)現(xiàn)模型的規(guī)模化擴(kuò)展。

“盡管‘大’是未來(lái)模型發(fā)展的趨勢(shì)，但我們并不片面地追求更大的參數(shù)量和計(jì)算。同樣地，我們也不應(yīng)該簡(jiǎn)單追求形式上的‘統(tǒng)一’，更應(yīng)關(guān)注統(tǒng)一帶來(lái)的性能收益。我們希望設(shè)計(jì)出更強(qiáng)大的模型，以創(chuàng)新算法充分發(fā)揮大數(shù)據(jù)、大算力的威力，隨著參數(shù)量、訓(xùn)練算法的提升在某個(gè)時(shí)間點(diǎn)上獲得性能的質(zhì)變，即‘涌現(xiàn)’。”張祥雨表示。

雖然視覺(jué)大模型能為機(jī)器學(xué)習(xí)帶來(lái)更廣泛的應(yīng)用場(chǎng)景和更高的表現(xiàn)能力已成共識(shí)，但廣東工業(yè)大學(xué)教授蔡念表示，這需要海量的數(shù)據(jù)支撐，企業(yè)如果想用好大模型，就要不斷挖掘工業(yè)制造數(shù)據(jù)，為大模型提供足夠的訓(xùn)練數(shù)據(jù)來(lái)源，此外還需要考慮參數(shù)和算力的問(wèn)題。這些要求對(duì)于大企業(yè)而言問(wèn)題不大，但巨大的成本是很多中小型企業(yè)難以負(fù)擔(dān)的。

蔡念認(rèn)為，此時(shí)不如考慮小模型和輕量化大模型。智能制造場(chǎng)景化、碎片化明顯，這就需要專注于特定領(lǐng)域進(jìn)行訓(xùn)練，進(jìn)行不同場(chǎng)景的模型定制化，最終形成某一領(lǐng)域的通用模型。這意味著，機(jī)器視覺(jué)的理想未來(lái)，是在復(fù)雜的應(yīng)用場(chǎng)景中打造標(biāo)準(zhǔn)化的應(yīng)用方案。

原創(chuàng)文章

線上空調(diào)市場(chǎng)價(jià)格戰(zhàn)：小米均價(jià)不降反升，美的系海爾系降價(jià)猛

創(chuàng)維壁紙電視618“屠榜”背后：全鏈路創(chuàng)新讓對(duì)手“抄不了”

明星代言難解松下家電困局

開(kāi)源66項(xiàng)“三筒”核心專利，海信洗衣機(jī)的“陽(yáng)謀”打懵對(duì)手

新玩家難越家電紅海？方洪波斷言“戰(zhàn)略已輸”背后的產(chǎn)業(yè)真相

“國(guó)寶國(guó)貨國(guó)補(bǔ)”加持，四川長(zhǎng)虹618演繹“科技+文化”敘事新邏輯

小米空調(diào)找長(zhǎng)虹代工生產(chǎn)，怎么看？

王興應(yīng)戰(zhàn)劉強(qiáng)東：兩種商業(yè)邏輯的碰撞