近日,2021全球人工智能技術大會在杭州召開。本次大會匯集來自世界各地的人工智能領域專家,共同為人工智能的未來發(fā)展建言獻策。在6月5日召開的計算機視覺專題論壇上,快手Y-tech部門AI技術平臺負責人萬鵬飛受邀發(fā)表了題為《短視頻UGC智能創(chuàng)作中的計算機視覺技術》的演講,從產業(yè)的角度分享了計算機視覺技術在短視頻智能創(chuàng)作方向的應用和發(fā)展趨勢。
快手深耕短視頻內容創(chuàng)作生態(tài),UGC智能創(chuàng)作降本增效
作為國民短視頻社區(qū),快手用戶日均使用時長99.3分鐘,整體日活達3.792億。在龐大的用戶與流量基礎上,快手形成了富有活力的內容創(chuàng)作生態(tài),平臺內有300億+原創(chuàng)視頻庫存,每月新增創(chuàng)作者1000w+。其中大部分內容是廣大普通用戶創(chuàng)作的,即UGC(User Generated Content)。據萬鵬飛介紹,UGC強調人機協同,內容創(chuàng)作的主體是人,技術輔助人做創(chuàng)作;智能創(chuàng)作則強調技術有一定的自動化能力,可在內容創(chuàng)作中起到“降本增效”的作用。對應到實際產品中,快手系產品的UGC智能創(chuàng)作主要涵蓋了三大類功能:人像美化功能、影音特效功能和獨立創(chuàng)作工具。
人像美化功能:快手的人像美化功能包括美顏、美型、美體、美妝、濾鏡、畫質增強等。除經典的基于圖形圖像處理的技術方案外,快手將基于深度學習的CV技術融入到了人像美化中,大幅提升了用戶體驗。例如用神經網絡來提高人像照片的畫質或讓照片中的人更年輕,以及通過環(huán)境光照估計使美妝效果在實際場景中更加自然等。
影音特效功能:除了常見的各種人臉AR裝飾外,特效功能的含義非常廣泛,包括但不限于各種玩法道具、貼紙動效、視頻模板和小游戲等。例如萬物AR玩法是用攝像頭掃描通用物體并觸發(fā)效果(如讓濕紙巾跳舞),活照片玩法可以使一張圖按照特定方式動起來(如前陣子很火的“螞蟻呀嘿”),這些都是特效技術的范圍。
獨立創(chuàng)作工具:快手此前已經推出“快影”和“一甜相機”等多款受歡迎的工具產品幫助用戶進行視頻和圖像的專業(yè)創(chuàng)作,最近還剛發(fā)布了一款主打高清修圖的“原片”app。除這些產品外,此次大會上萬鵬飛重點介紹了另外兩個比較特別的獨立創(chuàng)作工具。
第一個是虛擬偶像創(chuàng)建和開播工具—A站面捕助手,用戶能以很低的成本創(chuàng)造自己的虛擬形象,并讓虛擬形象跟著自己動起來,進行直播互動和內容生產。大大降低了普通人或商家擁有和運營屬于自己的虛擬偶像的門檻。
第二個是快手特效開放平臺—必揚特效平臺,在這個平臺上,人們可以設計和創(chuàng)造自己的特效玩法,發(fā)布到快手讓更多人體驗,并可獲得平臺激勵。通過這個方式,短視頻平臺、特效創(chuàng)作者、特效消費者形成了一個互利共贏的生態(tài)。
CV技術助力快手短視頻智能創(chuàng)作,五大變化傳達技術發(fā)展趨勢
短視頻UGC智能創(chuàng)作各種功能的實現大多依托于(但不僅限于)計算機視覺技術,即CV技術。在演講中,萬鵬飛從產業(yè)應用的角度,按照人體感知與重建技術、環(huán)境感知與重建技術、像素級語義分析、生成式技術和多模態(tài)技術這五個技術方向進行了介紹。
人體/環(huán)境感知與重建技術:感知和重建是智能創(chuàng)作的重要前提,也是CV領域的重要課題。主要包括點/框檢測、物體/場景識別、動作捕捉、VO/SLAM、3D重建等,這些基礎CV技術有力保障了快手用戶的創(chuàng)作體驗。
像素級語義分析:這方面用途最廣的是分割技術,俗稱摳圖。除了比較常見的人像分割外,萬鵬飛展示了一個快手實時天空分割的案例,不論是窗戶的遮擋,還是建筑與天空的連接處,都分割得非常細膩。除各種分割摳圖外,有時候也需要對畫面中的其他語義信息進行分析,如深度和法線等。
生成式技術:以生成判別網絡(GAN)為代表的生成式技術是近幾年非常火熱的課題。生成式技術除了可以做各種好玩的特效外(如“童話臉”特效),其應用已深入到智能內容創(chuàng)作的方方面面。例如傳統的染發(fā)效果是在頭發(fā)上疊加一層顏色,效果很假。用生成式技術染出來的頭發(fā),則更像是現實中實際染上去的效果。
多模態(tài)技術:現實世界中人們感受和表達信息大多是多模態(tài)的。一個短視頻,不只有畫面,還有聲音、文本信息等,因此UGC智能創(chuàng)作也應該對多模態(tài)信息進行聯合建模。在智能創(chuàng)作方面,多模態(tài)技術的落地場景有很多,包括為短視頻配樂、配文案,圖文轉視頻,以及文字生成畫面等。
以上這些技術在實際落地中會面臨很多挑戰(zhàn),包括如何保證算法在各種不同的機型上都能發(fā)揮最好的算法效果且保證運行流暢。如何保證用戶在各種使用場景中能保證算法的魯棒性等。這些都是CV技術在實際業(yè)務落地時必須考慮和解決的問題。
在演講的最后,萬鵬飛展望了短視頻UGC智能創(chuàng)作技術未來發(fā)展的五大趨勢:“首先是從單模態(tài)到多模態(tài),利用多模態(tài)信息進行智能創(chuàng)作;第二,生成模型會越來越強大。生成的內容更加逼真,且生成的過程更加穩(wěn)定可控;第三,內容形態(tài)走向虛實融合。虛擬與現實的邊界變得模糊,混合現實技術很有前景;第四,從輔助制作到輔助創(chuàng)意,技術需要幫助人們解決內容創(chuàng)作中的創(chuàng)意瓶頸問題;最后,計算模式將走向云邊端聯合計算,強大的計算能力將為用戶解鎖更多更智能的創(chuàng)作體驗” 。
- QQ:61149512