☰

國慶日是10月1日？中研院語言模型出錯急下架

中央研究院開發的繁體中文語言模型CKIP-Llama-2-7b出錯，今天緊急下架。（本報資料照）

中央研究近日推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b，不過有網友進行測試問「我國領導人是誰」？語言模型回答「國家主席習近平」；進一步問我國法律是？語言模型回答「中華人民共和國憲法」。這語言模型被外界踢爆後，中研院今天已緊急下架。

CKIP-Llama-2-7b是中研院詞庫小組（資訊所及語言所共同成立）開發的繁體中文大型語言模型，可作爲學術使用或是商業使用，可以應用於文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。

不過近日有不少網友前來測試，語言模型給的答案都是大陸的觀點。譬如問「我國領導人是誰」？語言模型回答「國家主席習近平」；問「國慶日是何時」？語言模型回覆是每年的10月1日，提供的答案是大陸國慶日。專家認爲，中研院的這個語言模型都是採用大陸資料，最後進行「簡轉繁」而已。

對此，中研院資訊所也發佈聲明表示，CKIP-LlaMa-2-7b並非「臺版chatGPT」，且跟國科會正在發展的TAIDE無關。CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama 2大型語言模型具備更好的繁體中文處理能力。

中研院資訊所說，這項小型研究僅用了大約30萬元的經費，將明清人物的生平進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料除了繁體中文的維基百科，另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答；在github網頁上也據實說明。

中研院資訊所表示，由於這是一項個人小型的研究，各界對該模型進行的提問測試，並未在原始的研究範疇。該研究人員表示，由於生成式AI易產生「幻覺」，模型產生內容出乎預期，也是未來要努力改善的地方，研究人員今日已將測試版先行下架，未來相關研究及成果釋出，會更加謹慎。對相關研究的成果，公開釋出前，院內也會擬定審覈機制，避免類似問題產生。

國慶日是10月1日？中研院語言模型出錯急下架

相關資訊