知識計算的新成績單,華爲雲奪得CCKS篇章級事件抽取技術評測冠軍
(原標題:知識計算的新成績單,華爲雲奪得CCKS篇章級事件抽取技術評測冠軍)
近日,在人工智能旗艦學術會議2020全國知識圖譜與語義計算大會(CCKS)上,華爲雲EI與蘇州大學組成的聯合團隊在"面向金融領域的篇章級事件主體與要素抽取"評測任務中獲得第一名的佳績。
事件抽取就是從自然語言文本中抽取出用戶感興趣的事件信息,並以結構化的形式呈現出來。金融領域的 "事件"則是指產品出現問題、高管減持、違法違規等信息。金融"事件"是金融領域投資分析,資產管理的重要決策參考。2020年中國網民規模達到了9.04億,網頁總數超3000億。如何從海量網絡信息中及時、高效地挖掘出金融"事件"是金融資管機構取得信息優勢,構築競爭力的焦點。
CCKS 2020面向金融領域的篇章事件要素抽取比賽主要針對篇章級中文金融文本中的事件要素進行抽取,篇章級中文金融文本中的事件要素進行抽取的挑戰在於,比賽數據主要來源於互聯網上的財經類網站,篇章很長,而且數據中存在大量的轉義符號以及由爬取不規範造成的要素混亂,如多個金額之間的空格丟失。其次,與句子級的要素抽取不同,本次比賽中的事件要素可以出現在篇章的各個位置,分佈在多個不同的句子中,因此需要設計有效的篇章級要素抽取的方案。
華爲雲EI在本次比賽中運用的自然語言處理技術,可廣泛用於事件抽取、實體抽取等信息抽取場景。爲了克服篇章事件要素抽取問題的一系列難點,華爲雲提出了一個由先驗信息增強的信息抽取框架,該框架包含三個主要步驟:事件類型預測,事件要素抽取,以及事件表格填充。
在最核心的事件要素抽取步驟中,採用華爲自研的大規模預訓練語言模型NEZHA作爲基礎模型,同時引入來自事件類型的明確先驗知識,大幅提升了篇章內不同句子在進行要素抽取時的一致性,取得了評測任務第一名的佳績。
通往第三代人工智之路需要將知識驅動和數據驅動相結合,知識計算正在成爲行業知識與數據驅動AI結合的高效路徑。知識計算的標準流程包含知識獲取,知識建模,知識管理,知識應用。事件抽取是知識獲取的一種重要方式。高效、準確的事件抽取能力可以快速的將互聯網海量非結構化信息結構化,讓下一步的知識建模成爲可能,爲知識參與計算掃清入口障礙。
華爲雲EI在人工智能語音語義領域接連奪得包括DiggScience 科學數據挖掘, NLPCC預訓練模型,CCF BDCI 金融實體情感分析,WSDM網絡搜索與數據挖掘在內的多項國際國內頂賽冠軍。華爲雲EI 金融事件抽取技術已經在金融知識圖譜構建、金融輿情分析、智能客服,企業信息監控、風險信用控制和智能投顧等多個場景應用,賦能客戶提升圖譜構建效率20%以上,憑藉冠軍技術能力極大地提升了金融客戶的工作效率。
在華爲雲EI領先的AI技術驅動和衆多生態夥伴的共同努力下,現已服務於國內50%的TOP20金融客戶。華爲雲EI將繼續踐行普惠AI理念,爲金融機構節省重複勞動成本,縮短服務響應時間,爲用戶帶來更優質的金融服務體驗。