一騎絕塵 商湯科技44篇論文入選CVPR 2018
全球計(jì)算機(jī)視覺頂級(jí)會(huì)議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議) 即將于六月在美國鹽湖城召開,本屆大會(huì)總共錄取來自全球論文979篇。CVPR作為計(jì)算機(jī)視覺領(lǐng)域級(jí)別最高的研究會(huì)議,其錄取論文代表了計(jì)算機(jī)視覺領(lǐng)域在2018年最新和最高的科技水平以及未來發(fā)展潮流。CVPR官網(wǎng)顯示,今年有超過3
2018-05-10 16:51:48
來源:釘科技??

全球計(jì)算機(jī)視覺頂級(jí)會(huì)議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議) 即將于六月在美國鹽湖城召開,本屆大會(huì)總共錄取來自全球論文979篇。CVPR作為計(jì)算機(jī)視覺領(lǐng)域級(jí)別最高的研究會(huì)議,其錄取論文代表了計(jì)算機(jī)視覺領(lǐng)域在2018年最新和最高的科技水平以及未來發(fā)展潮流。

CVPR官網(wǎng)顯示,今年有超過3300篇的大會(huì)論文投稿,錄取的979篇論文,比去年增長了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計(jì)算機(jī)視覺領(lǐng)域各項(xiàng)前沿工作。CVPR 2018包括21場tutorials、48場workshops,并且有來自全球各地超過115家企業(yè)將入駐今年CVPR工業(yè)展覽。

商湯科技、香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室以及其他商湯科技聯(lián)合實(shí)驗(yàn)室共有44篇論文被本屆CVPR大會(huì)接收,其中包括口頭報(bào)告論文3篇(錄取率僅62/3300 = 1.88%),亮點(diǎn)報(bào)告論文13篇,論文錄取數(shù)量相較于CVPR 2017的23篇又有大幅度提高,成績斐然。全球領(lǐng)先的科研成果展示了商湯科技智能視覺領(lǐng)域強(qiáng)大的人才儲(chǔ)備、科研底蘊(yùn)和創(chuàng)新能力。

商湯科技CVPR 2018錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模分布式訓(xùn)練、人體理解與行人再識(shí)別、自動(dòng)駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測(cè)、識(shí)別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計(jì)算機(jī)視覺算法不僅有著豐富的應(yīng)用場景,使得更多的智能視覺算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗(yàn)和方向。

大規(guī)模分布式訓(xùn)練

代表性論文:Oral – 深度增強(qiáng)學(xué)習(xí)自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

111.png

本文致力于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)設(shè)計(jì)問題,與一般人工的結(jié)構(gòu)設(shè)計(jì)不同,本文提出了一種高效算法,通過強(qiáng)化學(xué)習(xí)來自動(dòng)設(shè)計(jì)最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)通常需要大量專家的知識(shí)和試錯(cuò)成本,并且甚至還需要一些靈感,每年僅有幾個(gè)重要的網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計(jì)出來,因此,人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)難度極高的工作。近期的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的算法通常需要巨大的計(jì)算資源(數(shù)百塊GPU,近一個(gè)月的訓(xùn)練),并且生產(chǎn)的模型可遷移性不強(qiáng),難以做到真正的實(shí)用化。 

本文提出了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)設(shè)計(jì)算法,通過“網(wǎng)絡(luò)塊”的設(shè)計(jì)思想,讓搜索空間大大降低,并且使設(shè)計(jì)的網(wǎng)絡(luò)具有非常強(qiáng)的可遷移性。同時(shí),本文使用“提前停止”和分布式架構(gòu)來加速整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過程,達(dá)到了百倍于之前算法的速度(32塊GPU,3天的訓(xùn)練)。實(shí)驗(yàn)表面,其生成的網(wǎng)絡(luò)結(jié)構(gòu)在CIFAR數(shù)據(jù)集上達(dá)到并且超越人類設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)的精度,并且其結(jié)構(gòu)可以遷移到大規(guī)模的ImageNet數(shù)據(jù)上,取得良好的性能。

人體理解與行人再識(shí)別

代表性論文:Oral – 基于組一致性約束條件的行人再識(shí)別

222.png

行人再識(shí)別是新一代智能安防系統(tǒng)中的重要組件之一。給定一幅行人圖像,行人再識(shí)別要求跨不同攝像頭,對(duì)同一行人基于其視覺外觀進(jìn)行準(zhǔn)確匹配和識(shí)別?,F(xiàn)有深度學(xué)習(xí)算法通常使用過于局部的約束損失函數(shù)進(jìn)行行人特征學(xué)習(xí),因而不能精確的學(xué)習(xí)行人圖像之間的視覺相似度。本文針對(duì)該問題提出一種新穎的組一致性約束條件,并通過連續(xù)條件隨機(jī)場對(duì)該約束條件進(jìn)行建模。將該連續(xù)條件隨機(jī)場加入深度神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)該深度模型的端對(duì)端訓(xùn)練。實(shí)驗(yàn)結(jié)果表明該一致性條件在訓(xùn)練與測(cè)試中均能夠大幅度提升最終視覺特征的魯棒性與判別性,實(shí)現(xiàn)高精度的行人再識(shí)別。

自動(dòng)駕駛場景理解

代表性論文:

Spotlight – 極低延遲的視頻語義分割

333.png

本文關(guān)注面向自動(dòng)駕駛場景的視頻實(shí)時(shí)語義分割問題,雖然近年來圖像語義分割取得很大的進(jìn)展,但是對(duì)于面向視頻的語義分割任務(wù)仍然存在挑戰(zhàn)。其主要困難在于:1)視頻需要更多的計(jì)算量;2)許多實(shí)時(shí)的應(yīng)用如自動(dòng)駕駛需要實(shí)現(xiàn)低延遲性。

本文致力于解決這兩方面的難題,同時(shí)盡可能的保證分割的精度。在視頻分割問題中,鄰近幀之間的語義標(biāo)簽的變化相對(duì)較小,因此不必每幀都使用一個(gè)完整的網(wǎng)絡(luò)來提取語義標(biāo)簽。基于這種認(rèn)識(shí),本文提出了一個(gè)如圖所示的語義分割的框架,把整個(gè)網(wǎng)絡(luò)分為高層部分和低層部分,低層部分消耗較少的計(jì)算;本文的框架只在關(guān)鍵幀運(yùn)行完整的網(wǎng)絡(luò)來提取高層特征進(jìn)行語義分割,而在其他幀則從上一個(gè)關(guān)鍵幀傳播特征來進(jìn)行語義分割。相應(yīng)的框架由兩部分組件構(gòu)成:1)關(guān)鍵幀調(diào)度模塊,以及2)特征跨幀傳播模塊,其都基于低層特征進(jìn)行相應(yīng)的計(jì)算,因此相對(duì)完整的網(wǎng)絡(luò)計(jì)算量小很多。同時(shí)為了減少延遲,在檢測(cè)到當(dāng)前幀為關(guān)鍵幀時(shí),使用了一個(gè)低延遲的調(diào)度策略。本文提出的方法在兩個(gè)數(shù)據(jù)集上均驗(yàn)證了我們方法的有效性,取得了較低延遲并保持精確的分割精度。

Spotlight – 基于單視圖的立體匹配

444.png

面向自動(dòng)駕駛場景的單目深度估計(jì)方法,通常利用一個(gè)視角的圖像數(shù)據(jù)作為輸入,直接預(yù)測(cè)圖片中每個(gè)像素對(duì)應(yīng)的深度值,這就導(dǎo)致了現(xiàn)有方法通常需要大量的帶深度信息標(biāo)注的數(shù)據(jù)。近期的研究提出了在訓(xùn)練過程引入了幾何約束的改進(jìn),但是在測(cè)試過程仍然缺乏顯式的幾何約束。本文提出把單目深度估計(jì)分解為兩個(gè)子過程,即視圖合成過程以及雙目匹配過程,通過這樣分解之后,使得所提出的模型既可以在測(cè)試階段顯式地引入幾何約束又可以極大的減少對(duì)帶深度標(biāo)注數(shù)據(jù)的依賴。實(shí)驗(yàn)證明,本文提出的方法僅利用少量的深度數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過之前的所有方法,并首次僅靠單目圖像數(shù)據(jù)就超過了雙目匹配算法Block Matching,進(jìn)一步推動(dòng)了單目深度估計(jì)技術(shù)的落地。

底層視覺算法

代表性論文:Spotlight – 基于深度增強(qiáng)學(xué)習(xí)的普適圖像復(fù)原

555.png

本文提出了一種新穎的深度學(xué)習(xí)圖像復(fù)原方法。大部分已有復(fù)原算法僅面向解決某類特定的圖像復(fù)原問題,因而對(duì)各種不同類別的降質(zhì)圖像缺乏普適性。針對(duì)該問題,本文提出的RL-Restore算法先訓(xùn)練一系列針對(duì)不同降質(zhì)圖像的小型神經(jīng)網(wǎng)絡(luò);同時(shí)設(shè)計(jì)一種評(píng)價(jià)圖像復(fù)原質(zhì)量的獎(jiǎng)勵(lì)函數(shù),使用增強(qiáng)學(xué)習(xí)算法學(xué)習(xí)如何將這些小型神經(jīng)網(wǎng)絡(luò)進(jìn)行合理組合。針對(duì)不同的降質(zhì)圖像,獲得不同的復(fù)原算法組件的組合,實(shí)現(xiàn)對(duì)復(fù)雜降質(zhì)圖像的有效復(fù)原。

視覺與自然語言的綜合理解

代表性論文:Spotlight – 面向視覺問題回答的對(duì)偶視覺問題生成

666.png

針對(duì)開放式視覺問答(Open-ended VisualQuestion Answering)中訓(xùn)練數(shù)據(jù)過少的問題,本文提出了一種“可逆問答網(wǎng)絡(luò)”。該模型可以通過重組不同模塊,使一組模型同時(shí)完成“問題回答”和“問題生成”兩種互逆的兩個(gè)任務(wù)。該模型通過充分利用視覺問答和視覺問題生成的對(duì)偶性,提升模型對(duì)于有限訓(xùn)練數(shù)據(jù)的利用效率。該方法采用兩個(gè)任務(wù)同時(shí)訓(xùn)練同一模型,使網(wǎng)絡(luò)能夠?qū)栴}和圖片之間的聯(lián)系有更深的理解,從而在問題生成和問題回答兩個(gè)任務(wù)上都取得了更好的精度和效果。

人臉識(shí)別與人臉分析

代表性論文:

Poster – 超越人臉識(shí)別的人臉解離特征空間學(xué)習(xí)

777.png

本文同時(shí)解決人臉識(shí)別、屬性分類和任意人臉生成這三個(gè)問題。大多數(shù)人臉特征學(xué)習(xí)的工作通常能夠讓網(wǎng)絡(luò)學(xué)習(xí)得到一個(gè)具有極強(qiáng)身份或?qū)傩詤^(qū)分度的特征,以應(yīng)用于人臉識(shí)別、屬性分類等任務(wù);或者學(xué)習(xí)一個(gè)具有全局信息的特征,以應(yīng)用于人臉生成和編輯等應(yīng)用。為什么不能學(xué)習(xí)到一個(gè)完備的特征空間并使得語義信息高度區(qū)分化,進(jìn)而實(shí)現(xiàn)一個(gè)特征能夠完成所有的任務(wù)呢?本文提出了一個(gè)信息蒸餾與驅(qū)逐網(wǎng)絡(luò)的框架,只使用身份ID作為監(jiān)督信息,學(xué)習(xí)到了一個(gè)同時(shí)具有極強(qiáng)信息區(qū)分度且包含全局信息的稠密凸特征空間。在LFW、LFWA和CelebA等數(shù)據(jù)集上的實(shí)驗(yàn)表明,人臉在該特征空間下的投影具有極高的身份、屬性識(shí)別能力,且該空間內(nèi)的任意一個(gè)點(diǎn)均具有較強(qiáng)的身份和屬性語義,并可生成具有該語義的人臉圖像。

Poster – 基于邊緣感知的人臉關(guān)鍵點(diǎn)定位

888.png

本文提出一種基于邊緣感知的人臉關(guān)鍵點(diǎn)檢測(cè)算法,將人臉邊緣線所描述的結(jié)構(gòu)信息融入到關(guān)鍵點(diǎn)檢測(cè)中,極大地提升了算法在大側(cè)臉、夸張表情、遮擋、模糊等極端情況下的檢測(cè)精度。文章主要解決了兩大問題:1. 人臉關(guān)鍵點(diǎn)在各個(gè)數(shù)據(jù)集間歧義性,定義不一致問題。文章通過捕捉對(duì)于人臉更通用的邊緣線信息,將其作為人臉到關(guān)鍵點(diǎn)的中間媒介,使得不同數(shù)據(jù)集即使存在關(guān)鍵點(diǎn)差異,仍然可以相互輔助訓(xùn)練。2. 復(fù)雜情況下關(guān)鍵點(diǎn)檢測(cè)精度問題。本文首先通過消息傳遞結(jié)合對(duì)抗學(xué)習(xí)得到高精度的邊緣線檢測(cè)結(jié)果,再將邊緣線信息多語義層次地融合到關(guān)鍵點(diǎn)檢測(cè)中,使得算法在復(fù)雜情況下的魯棒性大幅提升。

另外,文章還提出了一個(gè)新的人臉關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)集Wider Facial Landmarksin-the-wild (WFLW),包含10,000 張帶有98點(diǎn)和6屬性標(biāo)注的人臉數(shù)據(jù),旨在幫助學(xué)界更有效的評(píng)估關(guān)鍵點(diǎn)算法在各種條件下的魯棒性。

物體檢測(cè)、識(shí)別與跟蹤

代表性論文:

Spotlight – 基于孿生候選區(qū)域網(wǎng)絡(luò)的高性能視覺跟蹤

999.png

本文提出一種基于端到端深度學(xué)習(xí)框架的高性能單目標(biāo)跟蹤算法?,F(xiàn)有的單目標(biāo)跟蹤算法通常較難兼顧性能和速度,僅能在某一指標(biāo)占優(yōu)。本文利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network),構(gòu)建了一種高速高精度的單目標(biāo)跟蹤算法。兩個(gè)子網(wǎng)絡(luò)通過卷積操作升維,統(tǒng)一在一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò)框架里。訓(xùn)練過程中,算法可以利用擁有密集標(biāo)注(VID)和稀疏標(biāo)注(YoutubeBB)的數(shù)據(jù)集進(jìn)行訓(xùn)練。相較于現(xiàn)有方法,稀疏標(biāo)注的數(shù)據(jù)集大大增加了訓(xùn)練數(shù)據(jù)來源,從而可以對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行更充分的訓(xùn)練;區(qū)域候選網(wǎng)絡(luò)中的坐標(biāo)回歸可以讓跟蹤框更加準(zhǔn)確,并且省去多尺度測(cè)試耗費(fèi)的時(shí)間。實(shí)驗(yàn)方面,本文提出的跟蹤算法能在160幀速度下達(dá)到VOT2015和VOT2016數(shù)據(jù)集上目前的先進(jìn)水平。

Poster – 快速的端到端多角度文字檢測(cè)與識(shí)別方法

000.png

本文首次提出了端到端的多角度文字檢測(cè)與識(shí)別方法。文字檢測(cè)與識(shí)別(OCR)是計(jì)算機(jī)視覺領(lǐng)域的經(jīng)典問題,過去的做法將文字檢測(cè)與識(shí)別看做兩個(gè)問題分別解決。本文提出了一個(gè)端到端的方法同時(shí)進(jìn)行文字檢測(cè)與識(shí)別,驗(yàn)證了這兩個(gè)任務(wù)相輔相成,共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練可以讓這兩個(gè)任務(wù)取得更好的精度。由于兩個(gè)任務(wù)共用一個(gè)特征提取的網(wǎng)絡(luò),速度也是分別進(jìn)行文字檢測(cè)與識(shí)別的兩倍左右。同時(shí)本文也提出了RoIRotate操作,其擴(kuò)展了RoIAlign,可以應(yīng)用于旋轉(zhuǎn)物體的檢測(cè)。本文在多個(gè)數(shù)據(jù)集上超過了現(xiàn)有方法。

深度生成式模型

代表性論文:Poster – 基于特征裝飾的實(shí)時(shí)零點(diǎn)風(fēng)格遷移

011.png

目前針對(duì)圖像風(fēng)格化的實(shí)時(shí)應(yīng)用,大多需要針對(duì)特定的風(fēng)格圖來設(shè)計(jì)特定的風(fēng)格遷移模型;如果需要實(shí)現(xiàn)對(duì)于任意風(fēng)格圖的遷移,計(jì)算復(fù)雜度和遷移效果大多不能得到保證。本文提出一種實(shí)時(shí)零點(diǎn)圖像風(fēng)格遷移模型,實(shí)現(xiàn)對(duì)于任意風(fēng)格圖像的多尺度高質(zhì)量風(fēng)格化遷移。該方法基于名為風(fēng)格裝飾器的特征遷移網(wǎng)絡(luò)結(jié)構(gòu),可以容易地嵌入圖像重構(gòu)網(wǎng)絡(luò)中來達(dá)到多尺度的風(fēng)格特征遷移。該網(wǎng)絡(luò)結(jié)構(gòu)使得生成的風(fēng)格化圖像充分表達(dá)風(fēng)格圖中的具體紋理模式,同時(shí)保留原圖中的語義信息。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)對(duì)各種類別的風(fēng)格圖都有較高的風(fēng)格化能力,并且可以有效擴(kuò)展到多風(fēng)格遷移和視頻風(fēng)格遷移等應(yīng)用中。

原創(chuàng)文章
最新文章
1
打造全行業(yè)最強(qiáng)交互方式,海信AI電視亮相ACE
2
“國補(bǔ)”給家電行業(yè)帶來了哪些影響?
3
進(jìn)入下半場,5G網(wǎng)絡(luò)建設(shè)如何“闖關(guān)”?
4
全年?duì)I收預(yù)增近30%,臺(tái)積電稱“AI需求剛開始”
5
TCL華星:首款量產(chǎn)印刷OLED產(chǎn)品將是醫(yī)療設(shè)備顯示屏
6
智能電視“套娃式”收費(fèi)何時(shí)休,該如何規(guī)范電視收費(fèi)問題?
7
本月發(fā)布!小米15全球首發(fā)驍龍旗艦芯皇
8
一加13搭載驍龍8至尊版:性能升級(jí)堪稱劃時(shí)代
9
驍龍峰會(huì)2024直擊:榮耀攜手高通,共同定義AI原生應(yīng)用場景
10
觀察:壁掛爐以舊換新,還需打通三大“消費(fèi)堵點(diǎn)”
11
臺(tái)積電發(fā)布2024年第三季度財(cái)報(bào):營收同比增長39%,凈利潤約720億人民幣
12
2024年9月中國家用智能門鎖線上市場總結(jié)
13
集成灶被通報(bào)三批次不合格,市場何時(shí)“止跌”?
14
洞察消費(fèi)趨向:日立家電如何定義品質(zhì)生活的新標(biāo)準(zhǔn)
15
三星最輕薄折疊屏!Galaxy Z Fold特別版發(fā)布:售價(jià)14500元
16
第三季度顯示器銷量出爐:小米中國第3!
17
引領(lǐng)消費(fèi)電子科技創(chuàng)新 打造智慧場景沉浸式體驗(yàn) 2024電博會(huì)精彩落幕
18
越來越多的凈水器能加熱之后,電水壺會(huì)越來越難賣?
19
論壇直擊|人工智能創(chuàng)新應(yīng)用發(fā)展領(lǐng)航交流會(huì)下午場精彩紛呈,共謀產(chǎn)業(yè)發(fā)展新篇章
20
論壇直擊|人工智能創(chuàng)新應(yīng)用發(fā)展領(lǐng)航交流會(huì) 圓滿舉辦
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512