1 月 8 日,全球權威機器視覺算法排行榜 KITTI,阿里巴巴 iDST奪得行人檢測單項冠軍。與此同時,在知名的行人再識別數據集 Market1501 中,iDST 的首位命中率也提升至 96.17%,位居世界第一。
iDST在KITTI行人檢測項目的數據圖示
KITTI 算法評測平臺由德國卡爾斯魯厄理工學院和芝加哥豐田技術研究所聯合建立,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集,用于評測目標(機動車、非機動車、行人等)檢測、目標跟蹤、路面分割等計算機視覺技術在車載環境下的性能。
Market1501 數據集的圖像在清華大學的一個超市門口進行采集,由 5 個高清攝像頭與 1 個低像素攝像頭進行拍攝。目前該數據集包括 1501 個個體,涵蓋 19732 張 gallery 圖片和 12936 張訓練圖像組成。所有的標注框由 DPM 檢測器生成。
實際上在今年 5 月,阿里 iDST 就已經將車輛檢測的準確率提升至 90.46%,長踞榜單第一名。而在同一難度級別的最新數據,阿里 iDST 如今已經刷新至 90.55%。
據雷鋒網 AI 科技評論了解,車輛檢測背后的技術基于區域融合決策和上下文相關的多任務深度神經網絡,用于復雜場景下的車輛檢測任務,重點解決其中多視角,多姿態以及車輛遮擋等問題。而在網絡結構設計上,利用反卷積操作提高了小目標的召回率,同時拼接了多層特征以融合低層的局部信息和高層的語義信息,提高了邊框定位的準確率。在訓練過程中,還借鑒了 GAN(生成對抗網絡)中的對抗訓練模式。團隊在計算機視覺國際頂級期刊和會議 TIP、ACM MM 等已發表多篇論文,分享了他們的研究成果。
行人檢測技術示意
行人再識別技術示意
行人的識別與檢測與車輛檢測雖然同為計算機視覺的研究內容,但兩者各自的難點與挑戰又有些不同。行人檢測要求機器能夠從圖像或者視頻中判斷是否有行人,行人在哪里;行人再識別則要求機器能夠識別出特定人員在不同攝像頭下出現的所有圖像。
阿里巴巴 iDST 副院長、IEEE Fellow 華先勝表示,目前大部分攝像頭所拍攝的圖像看不清人臉,需要通過行人的整體和局部特征進行識別。但在實際情況中,包括遮擋、光照、拍攝角度、拍攝距離、人物姿態等因素的干擾,還有攝像頭設備的不同,都會給行人的識別與檢測帶來困難。
據介紹,阿里巴巴 iDST 團隊在行人檢測技術方面,提出了基于目標尺寸分級的級聯網絡,并充分發揮感興趣區域的上下文信息,提升網絡特征提取的能力,以解決行人檢測問題中存在的目標尺寸浮動大、遮擋、形變且定位不準等問題;與此同時,在目標定位方面采用交叉熵正則約束來優化邊框定位準確度。
而在行人再識別方面,團隊不僅利用最新的深度學習技術提取行人的全局特征,還提出了超分辨率模塊和深度注意力網絡來獲得頭部、軀干、四肢、攜帶物等局部細節特征,并提出了融合粗粒度全局特征和細粒度局部特征的新方法,進一步提高了跨攝像頭場景下行人表征的一致性和行人再識別的準確性。
行人檢測與行人識別這兩項技術有著豐富的應用場景,包括景區商場的人流預測、人群個性化分析、行人交通安全、無人駕駛、尋找丟失老人兒童等應用等等。目前上述技術已經全部集成到阿里云 ET 城市大腦當中,并已落地。
華先勝表示,「正如 60 年代的登月計劃帶來了通訊技術、生物工程技術大爆發一樣,城市大腦已經成為世界頂尖的科技創新的平臺,前所未有的難題倒逼科學家們創造前所未有的技術」。
據雷鋒網 AI 科技評論了解,阿里云 ET 城市大腦已經在杭州、蘇州、衢州、烏鎮等地落地。借助機器視覺算法,杭州城市大腦可以做到準確偵測、發現交通事故,日均事件報警 500 次以上,準確率達 92%。