語音轉文字 OpenAI被指重大缺陷 出現「想像」的醫療方法
康乃爾大學的電腦螢幕上顯示「他開始祈禱」這句文字,被OpenAI的Whisper轉錄後,呈現的是 「我感覺我要跌倒了,我感覺我要跌倒了……」。(美聯社)
科技巨頭OpenAI宣稱其Whisper人工智慧(AI)轉錄工具的穩健程度和準確性「接近人類等級」;但十多位美聯社採訪的專家指Whisper有重大缺陷:它會輕易拼湊出被科技界稱爲「幻覺」的大量文字甚至整串字句,部分虛構內容可能包括種族歧視評論、暴力言論,甚至還有純屬想像的醫療方法。
包括軟體工程師、開發人員和學術研究人員在內的專家指出,這類捏造行爲很有問題,因爲全球許多行業開始使用Whisper進行翻譯和將訪問轉換成文字、生成文本或爲影片加入字幕。更令人擔憂的是,儘管OpenAI警告該工具不應用於「高風險領域」,但不少醫療中心已急着利用Whisper記錄病患與醫生的諮詢內容。
研究人員和工程師表示,他們在工作中經常遇到Whisper生成出來的「幻覺」內容,但這些問題內容的真僞很難辨識。
一名密西根大學研究人員發現,在改進Whisper工具模型之前,每10個音訊轉錄就有8個出現「幻覺」;一名機器學習工程師表示,他分析的100多小時Whisper轉錄內容有一半存在「幻覺」;一位研發人員表示,他用Whisper創建的2萬6000份紀錄,幾乎每份都有「幻覺」內容。照此趨勢發展下去,數百萬份錄音檔轉錄會出現數以萬計的錯誤內容。
去年開始領導白宮科技政策辦公室的新澤西州普林斯頓高級研究所教授尼爾森(Alondra Nelson)表示,此類錯誤可能造成極嚴重後果,特別是在醫院環境中。他說:「沒人希望誤診,應訂定更高標準才行。」
目前,Whisper也被用來爲聾啞和聽力障礙人士創建隱藏式字幕,聾啞人士、加勞德特大學科技擴展計劃負責人沃格勒(Christian Vogler)表示,這樣的轉錄錯誤風險特別高,因爲聾人和聽力障礙者無法識別出「隱藏」在文本中的捏造內容。
由於這類「幻覺」普遍存在,專家、倡議者和前OpenAI員工紛紛呼籲聯邦政府考慮訂定AI法規;至少,OpenAI有必要儘快解決此缺陷。OpenAI發言人表示,該公司正不斷研究如何減少幻覺,他們也讚許研究人員的相關發現。