12月6日,大數據&機器學習領袖峰會(Big Data & Machine Learning Leaders Summit Hong Kong 2018)在香港召開。作為全亞洲最受期待的大數據&機器學習會議之一,此次峰會吸引了包括OPPO AI專家在內的全球頂尖科學家和技術領袖,聚焦探討數據、機器學習、人工智能與技術的商業(yè)化等前沿話題。
OPPO高級AI架構師何朝文
來自OPPO美國研究所的高級AI架構師何朝文出席此次峰會并發(fā)表主題演講,著重介紹了OPPO對計算機視覺技術未來應用的思考。他表示:“AI能力的進一步發(fā)展,特別是與即將到來的5G時代深度融合,將推動視頻成為更普遍的交流媒介。用戶不僅可以更隨心所欲地觀看視頻,也能夠更低成本地創(chuàng)造視頻內容。而計算機視覺技術向視頻理解領域的延伸,將是打造這一全新用戶體驗場景的關鍵?!?/span>
推動AI從感知到認知,打造智慧的視頻管理和創(chuàng)作
視頻已經成為霸屏用戶時間的最主要內容。根據QuestMobile發(fā)布的《2018年半年大報告》,在線視頻和短視頻是移動網民使用時間占比前三的應用類型。而不遠的將來,5G超高速、低時延的全新特點也會讓視頻類應用的數量提升到新的量級。
何朝文認為,視頻將成為未來移動互聯(lián)網主要內容形式,這對終端設備也提出了更高的要求,為了讓用戶更便捷地管理視頻和創(chuàng)作視頻,手機需要具備視頻管理器和編輯器的功能。借助AI能力,手機可以智能地完成分類、搜索、片段搜索和推薦功能。比如用戶搜索“貓”或者“孩子”等關鍵詞,手機就可以主動呈現(xiàn)出來所有包含這些關鍵詞的片段。不僅如此,AI還能夠定位到相應的時間點,更加精準地呈現(xiàn)結果。
同時,通過AI編輯功能,手機可以自動完成風格轉換、解構分割、效果增強、亮點摘要和視頻生成。例如用戶可以通過風格轉移功能,可以讓一段普通視頻呈現(xiàn)出梵高《星空》的后印象派畫風。AI也可以幫助用戶自動處理一系列原始視頻素材,剪輯出一段更加有節(jié)奏感和故事性的片段。
挑戰(zhàn)行業(yè)難題,OPPO AI視頻理解已達業(yè)界領先水平
視頻理解是整個業(yè)界公認的難題,而OPPO已經在視頻分類和風格轉移方面達到了業(yè)界領先水平。
據何朝文介紹,OPPO的最快的視頻分類AI模型已經可以在公開數據集 Kinetics-600 實現(xiàn)69%的準確率,并且基于單個英偉達 V100 GPU 實現(xiàn)1秒10個視頻的處理速度。同時,OPPO表現(xiàn)最佳的模型則可以實現(xiàn)71%的Top-1準確率,速度是1秒2.7個視頻。從兩組數據表現(xiàn)來看,OPPO的AI模型性能已經與谷歌類似,甚至在處理速度上更勝一籌。
而在編輯方面,何朝文表示OPPO美國研究所已經可以對視頻進行風格轉換,并且很好地解決了因為視頻前后幀的亮度不一致導致的閃爍問題。
完整的閉環(huán)能力,OPPO致力打造卓越的AI體驗
對前沿技術的探索和追求是為了給用戶帶來真正的價值。何朝文在演講中也強調,在OPPO看來AI是一種能力,也是一種思維,要始終利用這種思維思考AI如何解決和滿足用戶的痛點與需求。
實際上,OPPO目前已經將AI能力廣泛應用在手機產品上,帶來拍照場景識別、智慧識物等智能體驗。例如OPPO R17系列已經能夠識別21類獨立場景以及多達800個場景組合;同時也可以通過相機對條碼類、實體類、文字類的掃描識別,提供多語種翻譯、內容提取、圖像優(yōu)化、場景服務、信息查詢等多方位萬物識別服務。
OPPO的閉環(huán)AI架構是持續(xù)提升用戶體驗的關鍵。何朝文強調,OPPO的AI架構底層為硬件平臺,上面分別是大數據平臺、訓練平臺、智能應用和用戶體驗。硬件平臺提供算力支持,大數據平臺則保證數據的可靠性和安全性。同時通過訓練平臺,OPPO可以利用AI算法來建立模型去支持計算機視覺、語音識別、自然語義處理和個性化推薦等智能應用。當然,最終目的還是要用來提升用戶體驗。而用戶在具體使用中的反饋則會反哺到大數據平臺的訓練中,進一步驅動用戶體驗的優(yōu)化。
在前不久的2018 OPPO科技展期間,OPPO創(chuàng)始人、總裁兼CEO陳明永也特別明確了AI的重要意義,他提到:“手機作為AI最好的載體之一,還有很大的改善空間。OPPO要積極擁抱人工智能,要密切關注AI前沿技術和應用成果。”邁入5G時代,AI技術帶來的好處也將獲得真正的釋放。
- QQ:61149512