素有“數據挖掘的世界杯”之稱的KDD Cup(國際知識發現和數據挖掘競賽跨模態信息檢索大賽)是當今該領域水平最高、影響力最大的全球頂級賽事。該比賽從 1997 年起每年舉辦一次,吸引了無數來自世界數據挖掘領域的頂尖專家、學者和工程師參賽,是全球頂尖AI團隊的必爭之地。為了充分檢驗自身在跨模態數據檢索和識別技術中的水平,并與全球最先進的團隊進行學習交流,衛士通報名參加了KDD Cup 2020 Challenges for Modern-E-Commerce Platform:Multimodalities Recall,并在激烈的角逐中披荊斬棘榮獲第6名的好成績。
?KDD Cup 2020跨模態信息檢索大賽決賽排行榜
?
衛士通一直致力于以“數據分級分類”為核心的數據安全治理關鍵技術突破和產品研發工作。基于數據內容的敏感數據識別和定級是其中的關鍵點之一,跨模態的數據識別技術則是其重中之重。通過跨模態數據識別,可最終實現對混雜了文本、圖片甚至音頻或視頻的多模態復雜數據進行自動化的識別和定級。
本次比賽的賽題是根據一條文本,從多張候選圖片中檢索出與之最匹配的圖片,可以理解為“以文搜圖”,這是跨文本與圖像兩種模態的信息識別與檢索。跨模態信息檢索是計算機視覺、自然語言處理、大數據等的交叉領域,與之相關的還有跨音頻、視頻等模態的檢索任務。實際上,在我們平時使用瀏覽器搜索圖片和視頻,以及網上購物時用關鍵字搜索商品的過程中都能看到跨模態檢索技術的影子。
?
衛士通的參賽代表各盡所能,從算法模型的結構、數據擴充、目標函數等方面充分挖掘改進模型的可能性。然而,比賽提供的模型數據有300萬條之多,要在如此龐大的數據上訓練一個模型至少需要2天的時間,而驗證改進思路的可行性還需要設計大量嚴謹的對比實驗。因此,整個比賽的過程不僅是經驗和智慧的競爭,更是一場和時間的賽跑。終于,經過兩個月的激烈角逐,衛士通在決賽中的正確率達到了79%,在共同參賽的1432支隊伍中突出重圍,取得了喜人的成績。
?
通過本次比賽,不僅展現了衛士通在跨模態數據檢索領域的技術實力,也為今后在跨模態場景下數據識別的進一步探索給予了寶貴的經驗和充足的信心。而這些來之不易的技術成果,衛士通也將應用在諸如數據脫敏系統和數據安全治理平臺等一系列數據分級分類、安全治理的相關產品和方案中,以便為廣大用戶提供更加智能、精準、高效的服務,并為大數據場景下的數據有序和安全流動提供更加有力的保障。