☰

中國團隊在視覺常識推理領域獲新突破

視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域的前沿熱點問題，從處理類型單一的數據到跨媒體認知、學習和推理的“跨媒體智能”被認爲是五大智能方向。

近日，騰訊微視視頻理解團隊在多模態理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機構的模型效果，一舉成爲單、多模型的三項指標第一，值得注意的是，BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果，賦予了機器更強大的理解和認知能力，並深度應用到短視頻領域。

VisualCommonsense Reasoning (VCR)任務於2018年由華盛頓大學的研究人員首次提出，任務旨在將圖像和自然語言理解二者結合，驗證多模態模型高階認知和常識推理的能力，讓機器擁有“看圖說話”的能力,例如VCR能夠通過圖片中人物的行爲，進一步推理出其動機、情緒等信息。VCR榜單是多模態理解領域最權威的排行榜之一，也是當前圖像理解和多模態領域層次最深、門檻最高的任務之一，吸引了微軟、谷歌、Facebook、百度、UCLA等國內外公司和研究機構紛紛參與。

據相關負責人介紹，BLENDer模型賦予了平臺更強大的認知能力，使得包含文本、音頻、視頻等多種媒體信息在內的短視頻內容，能夠更好的做到分類和識別，更加精準理解和挖掘這些海量的跨媒體信息。

在BLENDer模型中，第一階段以NLP中的Bert模型爲起點，結合海量數據中抽取得到的數百萬張圖片和對應描述文本作爲BLENDer的輸入進行多模態訓練；第二階段，在視覺常識推理數據集上學習電影中的場景和情節，使模型在新數據上獲得更好的遷移能力；第三階段，引入最終問答任務，讓BLENDer利用已有的知識和常識對現有問題進行人物-人物、人物-場景之間關係的挖掘和關聯進行推理，得到最終的答案。

未來，人工智能將具備更加多元、深度的交流學習能力，而技術的創新和精進將進一步推動AI技術在短視頻業務中智能交互場景的落地。（張銘陽）

中國團隊在視覺常識推理領域獲新突破

相關資訊