中國團隊在視覺常識推理領域獲新突破

視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域前沿熱點問題,從處理類型單一的數據媒體認知、學習和推理的“跨媒體智能”被認爲是五大智能方向

近日,騰訊微視視頻理解團隊在多模態理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機構的模型效果,一舉成爲單、多模型的三項指標第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,並深度應用到短視頻領域。

VisualCommonsense Reasoning (VCR)任務於2018年由華盛頓大學的研究人員首次提出,任務旨在將圖像和自然語言理解二者結合,驗證多模態模型高階認知和常識推理的能力,讓機器擁有“看圖說話”的能力,例如VCR能夠通過圖片中人物的行爲,進一步推理出其動機情緒信息。VCR榜單是多模態理解領域最權威的排行榜之一,也是當前圖像理解和多模態領域層次最深、門檻最高的任務之一,吸引了微軟、谷歌、Facebook、百度、UCLA等國內外公司和研究機構紛紛參與。

據相關負責人介紹,BLENDer模型賦予了平臺更強大的認知能力,使得包含文本音頻、視頻等多種媒體信息在內的短視頻內容,能夠更好的做到分類和識別,更加精準理解和挖掘這些海量的跨媒體信息。

在BLENDer模型中,第一階段以NLP中的Bert模型爲起點,結合海量數據中抽取得到的數百萬張圖片和對應描述文本作爲BLENDer的輸入進行多模態訓練;第二階段,在視覺常識推理數據集上學習電影中的場景情節,使模型在新數據上獲得更好的遷移能力;第三階段,引入最終問答任務,讓BLENDer利用已有的知識和常識對現有問題進行人物-人物、人物-場景之間關係的挖掘和關聯進行推理,得到最終的答案

未來,人工智能將具備更加多元、深度的交流學習能力,而技術的創新和精進將進一步推動AI技術在短視頻業務中智能交互場景的落地。(張銘陽