科學家新視野-AI寫新聞的技術與風險
2020年5月OpenAI公司發表了具有1750億個參數的人工智慧(AI)語言模型GPT-3,可讓電腦產生擬真的文章。其後,英國衛報在2020年9月8日發佈一則〈機器人寫了這篇文章,你害怕了嗎,人類?〉新聞。衛報編輯人員先寫一小段文字給GPT-3當作前導文,讓GPT-3獨立的寫出後續500字的文章。衛報指出,比起記者寫的新聞稿,編輯GPT-3產生的文章,整體而言花費較少的時間。此例證顯示了此項技術,已可進入產業的成熟度。
AI依據前導文產生的文章,不論是中英文,語法幾乎完全符合訓練語料中的文句結構,語意上也相當通順。只有在訓練資料不足的情況下,需要人工潤飾並修正明顯的邏輯錯誤。例如,以金庸的14部小說訓練AI,生成的文筆看起來像金庸,但不見得符合金庸小說的邏輯。
在三種條件下,AI產的文章,需要人工編輯的機會就越來越低:(1)事先訓練AI的語料足夠大量且品質優良、(2)前導文寫得好、(3)前導文的主題在訓練語料庫裡面夠豐富。我們團隊已做出符合上述三個條件,且可自動生成中文經濟新聞,如下:
『根據金管會規劃,同一金控下的銀行,跟金控可以擇一參股大陸銀行,且參股總額度分開計算,金控「進可攻、退可守」,登陸投資彈性最大,成爲兩岸金融開放後最大受惠者。據瞭解,金控旗下的銀行子公司,包括臺灣銀行、土地銀行、合作金庫銀行、第一銀行及華南銀行等,都是透過金控子公司,參股大陸銀行。至於大陸銀行來臺參股,銀行業者表示,參股對象是否有經營權,還是要看金管會規劃,但是參股上限是否放寬,還要看兩岸主管機關的規劃。』
此篇電腦產生的新聞,一般人已難看出是否爲電腦所寫,更難以判定內容的真假。若AI生成的文章被誤用,特別是高風險的內容,如股市新聞,不管內容對錯就大量發送,將造成市場資訊混亂。
AI生成的文章若未經人工修正,我們團隊可用另外的AI方法偵測,準確率最高可達96%。若AI生成的文章已由人工編修,恐怕難以辨識文章的作者是人類還是AI。因此,若誤用AI技術而藉助電腦快速地生成大量而未加查證的新聞,其結果將降低大衆對媒體的信任度,此種情況,不得不防患於未然。此項AI先進技術纔出來兩、三年,進步飛快,只要有大數據,熟悉軟體安裝與操作,即可做出電腦生成的新聞、文章。此技術對未來的影響,值得關注。
在產業界,AI生成文章可以輔助人們提高寫作的效率。但在教育界,誤用或濫用AI生成的文章可能造成作弊現象。若學生高度依賴AI,而老師、學校在無從辨識的情況下給予了不該給的分數,或是授予了不該給的學位。這些可能的弊端,需藉助自動偵測系統,來快速輔助鑑定學習歷程、學位論文、計劃書等具高報酬、高影響之文件,是否由電腦AI產生。此類衍生的問題,社會學者、法律專家可能得未雨綢繆後續發生的各種情況。