一口氣11項發佈 一文看懂百度大腦的NLP佈局

8月25日,百度CTO王海峰在百度大腦語言與知識技術峰會上,首次對外全面完整的闡述了百度的NLP佈局,還推出了一攬子11項新發布。

自然語言理解(NLP)的名詞解釋是這樣的,自然語言是人類智慧結晶,是人工智能中最爲困難的問題之一,而對自然語言處理的研究也是充滿魅力挑戰的。

那麼,百度是如何理解這項挑戰的?他們爲此做了哪些研究和佈局,我們一探究竟。

知識圖譜機器認知世界基礎

王海峰表示,在百度語言與知識技術的佈局和發展中,始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,併力爭引領趨勢。

對此,2010年,他們就成立了自然語言處理部,“縱覽百度語言與知識技術發展歷程,從研究方法、研究對象、研究方向、產業應用等各個層面,佈局完整,始終與應用的發展趨勢、需求一脈相承,與產業接軌。”

一手是技術探索,一手是應用落地,王海峰認爲缺一不可。

他指出,知識圖譜是機器認知世界的重要基礎,百度的大規模知識圖譜有超50億實體和5500億事實,並在不斷演進和更新,“目前每天的調用次數超過400億次。”

另外,百度不斷在語言理解能力方面進行攻關,此前就提出了知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,據介紹,基於知識圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。

還有一點至關重要是語言生成,語言生成是語言與知識技術中的重要組成部分,百度提出基於多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息。與此同時,還提出了知識圖譜驅動的對話控制技術,以及基於隱空間的大規模開放域對話模型PLATO等,實現規模化應用。

據披露,百度翻譯目前可支持200多種語言,每天響應超過千億字符的翻譯請求。

讓語言與知識技術在應用中產生價值

王海峰談到要抓住技術發展趨勢和產業發展趨勢,那在產業發展方面百度有何佈局?

百度集團副總裁吳甜給出了答案,她連續發佈了語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新品,同時發佈了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。

吳甜在講解中表示,我們希望讓語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值。

具體來說,此次推出的語義理解技術與平臺文心,基於深度學習平臺飛槳,依託語義理解核心技術,集成預訓練模型、NLP算法集、端到端開發套件和平臺,提供一站式NLP開發與服務。“具備工業級落地實能力”吳甜談到。

而在智能文檔分析平臺TextMind方面,基於OCR、NLP技術,以文檔解析爲核心,支持文檔對比與文檔審覈,希望促進企業辦公智能升級。

百度大腦智能創作平臺則針對媒體應用場景升級,推出智能策劃、智能採編、智能審校三大媒體場景方案。還有AI同傳會議解決方案,吳甜現場展示瞭如何只用一臺電腦和一部手機搭建一套同傳服務。

在智能對話定製與服務平臺UNIT方面,也發佈了一攬子新特性,其中包括任務式對話理解、表格問答和融合通用的新對話引擎。據介紹,此次UNIT的升級,將進一步降低任務式對話、智能問答的定製成本。

值得一提的是,數據匱乏、算力不足歷來是語言與知識技術研發中面臨的瓶頸

針對這樣的問題,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃千言”,千言一期由來自國內11家高校和企業的數據資源研發者共同建設,涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源數據集。

百度技術委員會主席吳華表示,“計劃在未來3年,面向20多個任務,收集和建設不少於100箇中文自然語言處理數據集,覆蓋語言與知識技術全部領域。”