社科資訊 | 古漢語大語言模型“AI太炎 2.0”正式發佈,將顯著提升古籍整理的效率與精度

中國社會科學網訊(記者 段丹潔)8月27日,北京師範大學古漢語大語言模型“AI太炎2.0”發佈會暨數智時代應用語言學學科建設路徑與方法座談會在京舉行。

“AI太炎”是國家語委重大項目“古籍整理智能化關鍵技術研究”的核心成果,是專門適用於古漢語文本理解的大語言模型。該模型是針對古漢語信息處理任務“低資源”“富知識”的特點,從頭構建的專門適用於古漢語文本理解的大語言模型。通過合理的模型設計、數據處理、基座訓練及微調,僅使用1.8B參數量即可取得較好效果。該模型具有較強的古典文獻釋讀能力,支持詞義註釋、文白翻譯、句讀標點、用典分析等多種具有挑戰性的文言文理解任務,且兼容繁簡中文輸入。此外,在輔助古籍整理、辭書編纂和語言研究等方面,該模型也表現出了很大的應用潛力。

教育部語言文字信息管理司司長劉培俊說,大語言模型技術可以大幅提高古籍整理研究效率,可望爲普及推廣國家通用語言文字、傳承弘揚中華優秀語言文化、世界共享中國特色語言文明提供語言智能技術支持。

北京師範大學常務副校長王守軍認爲,人工智能爲人文學科帶來了前所未有的機遇與挑戰。前沿科技成果“AI太炎”將顯著提升古籍整理的效率與精度,對於傳承弘揚中華優秀傳統文化來說具有重要意義。

北京大學中國語言文學系系主任杜曉勤談到,近年來,AI古典文獻釋讀能力的進步,極大推動了傳統學科在新時代的發展,期待這一創新成果進一步促進中國語言文學學科的繁榮與進步。

北京語言大學教授華學誠說,“AI太炎2.0”古漢語大語言模型標誌着漢語言文字學學科現代化和科學化的轉型升級。推動語言文字學的守正創新,展現了中國學人的學術擔當。

據悉,“AI太炎”1.0版於2023年11月進入內測階段,學術科研、基礎教育、編輯出版等不同行業領域的4000餘名用戶參與內測,爲模型改進提出了寶貴建議。研究團隊在此基礎上對模型進行了持續迭代優化,併發布了該模型2.0版,以期更好地助力古籍整理、文言文教學和古漢語信息處理研究。

來源:中國社會科學網

責任編輯:齊澤垚

新媒體編輯:宗敏

如需交流可聯繫我們

點個“在看”不失聯