陸古籍AI 「荀子」能寫詩會翻譯

南京農業大學資訊管理科學系教授王東波研究團隊,日前在北京發佈「荀子」古籍大語言模型。該模型包含《四庫全書》在內的絕大多數傳世古籍文獻,擁有超過20億字的大型語料庫。(新華社)

南京農業大學資訊管理科學系教授王東波研究團隊,日前在北京發佈「荀子」古籍大語言模型。這是由大陸國家社科基金重大專案「中國古代典籍跨語言知識庫構建及應用研究」支持下,聯合中華書局古聯公司推出,專項從事古籍處理與研究的智慧工具。該模型包含《四庫全書》在內的絕大多數傳世古籍文獻,擁有超過20億字的大型語料庫。

「荀子」古籍大語言模型以古籍智慧化研究爲目的,爲古籍智慧處理而設計,在推動中國古籍研究與保護工作創新發展、提高中華傳統文化傳承的效率與品質、實現大語言模型與古籍處理的深度融合上提供重要支撐。

該模型作爲開源公益研究成果已在GitHub、ModelScope等網站發佈,用戶可免費下載部署使用。

據指出,王東波教授研究團隊在南京農業大學高算力基礎設施支持下,持續10年深耕古籍文獻數位化研究,同時依託中華書局提供的應用場景,在古籍開源大語言模型上實現AI人工智慧垂直細分領域的大陸首創。

該開源模型包括兩個部分:基座模型XunziALLM與對話模型XunziChat。

此一模型亮點包括:智慧標引,能夠對古籍中的內容進行高品質主題標引,說明研究人員快速瞭解文章主題。資訊抽取,能夠自動從古籍中抽取關鍵資訊,如人物、事件、地點等,大大節省了資訊整理時間。

詩歌生成,能夠根據給定的主題或關鍵字,自動生成符合語法規則和韻律要求的古詩,爲詩詞愛好者提供創作靈感。高品質翻譯,對於難以理解的古籍文獻,能夠進行精準的現代文翻譯,幫助研究人員更好地理解原文含義。

閱讀理解,能夠對給出的古文文本進行分析解釋,實現對古籍文本的自動閱讀。詞法分析,可以完成古籍文本的自動分詞和詞性標註,有效提升研究效率;自動標點,可以快速完成古籍文本的斷句和標點,提升使用者對古籍文本的閱讀體驗。