每10份音頻就有8份被“胡編”?OpenAI語音轉錄工具被曝存重大缺陷

財聯社10月28日訊(編輯 瀟湘)生成式人工智能領域的領軍者OpenAI,曾吹噓其人工智能轉錄工具Whisper具有接近 “人類水平的穩定性和準確性”。

然而,隨着該轉錄工具在各行各業被越來越多地普及使用,其問題似乎也正開始凸顯——根據業內媒體對十多位軟件工程師、開發人員和學術研究人員的採訪,如今Whisper所存在的一個重大缺陷已愈發不容忽視:它很容易會編造大段文字,甚至是整段句子。

這些業內專家表示,一些編造出的文字——在行業內被稱爲“幻覺”,可能包括種族言論、暴力措辭,乃至完全杜撰出的醫療建議。

專家們越來越擔心這種“胡編亂造”可能造成嚴重後果,因爲Whisper當前正被全球多個行業用於翻譯和轉錄採訪內容、生成文本以及爲視頻製作字幕。雖然OpenAI曾警告不應在“高風險領域”使用該工具,但目前一些美國醫療中心都正開始使用基於Whisper的工具,來記錄患者與醫生間的對話。

據經常使用Whisper的研究人員和工程師表示,他們在工作中經常會遇到該工具出現“幻覺”。例如,密歇根大學的一名研究人員在研究公共會議的轉錄準確率時發現,他所審覈的每十份音頻轉錄中,便有八份存在“幻覺”。

一位機器學習工程師則稱,在他分析的100多個小時的Whisper轉錄中,他最初發現大約有一半存在“幻覺”。第三位開發人員指出,在他用Whisper創建的26000份記錄中,幾乎每一份都發現了胡編亂造的現象。

即使是在那些錄製良好的簡短音頻樣本里,問題也依然存在。在最近的一項研究中,計算機科學家們在審查的超過13000個清晰音頻片段中發現有187個存在“幻覺”問題。

研究人員表示,這種趨勢將導致在數百萬段錄音中出現數以萬計的錯誤轉錄。

後果嚴重

曾在拜登政府領導白宮科技政策辦公室工作的Alondra Nelson表示,這種錯誤可能會造成“非常嚴重的後果”,尤其是在醫院裡。

目前,包括明尼蘇達州的曼卡託診所和洛杉磯兒童醫院在內的超過30000名臨牀醫生和40個衛生系統,已開始使用法國AI診療公司Nabla基於Whisper打造的工具。

Nabla公司的首席技術官Martin Raison表示,該工具根據醫學語言進行了微調,以轉錄和總結醫生與病人間的互動。該工具轉錄的就診記錄目前已多達約700萬次。該公司官員還指出,他們知道Whisper會產生幻覺,並正在努力解決這個問題。

目前擔任普林斯頓高等研究院教授的Nelson表示,“沒有人希望出現誤診。(該領域)應該有更高的標準。”

目前,Whisper還被用於爲聾人和聽力障礙者製作字幕——這是一個特別容易因出現錯誤轉錄而陷入困境的人羣,因爲聾人和聽力障礙者完全無法識別“隱藏在所有文本中”的編造內容。

這種幻覺在Whisper中的普遍存在,已促使衆多專家、倡導者和OpenAI前員工呼籲美國政府考慮制定人工智能法規。他們指出,OpenAI至少需要解決這一缺陷。今年2月因擔心公司的發展方向而從OpenAI辭職的工程師William Saunders就表示,如果OpenAI願意優先解決這個問題,這個問題似乎是可以解決的。而如果你長期把它放在那裡,而人們對它的功能過於自信,並把它集成到所有這些其他系統中,那就有麻煩了。

雖然大多數開發人員都認爲轉錄工具不可避免會拼錯單詞或出現其他錯誤,但不少工程師和研究人員表示,他們從未見過其他人工智能轉錄工具像Whisper一樣容易產生幻覺。

目前,該工具已被集成到OpenAI旗艦聊天機器人ChatGPT的某些版本中,同時也是甲骨文和微軟雲計算平臺的內置產品,爲全球數千家公司提供服務。它還可用於將文本轉錄和翻譯成多種語言。

僅在上個月,開源人工智能平臺HuggingFace上的一個Whisper最新版本就被下載了420多萬次。該平臺的機器學習工程師Sanchit Gandhi表示,Whisper是最流行的開源語音識別模型,從呼叫中心到語音助手,都內置了Whisper。

康奈爾大學教授Allison Koenecke和弗吉尼亞大學教授Mona Sloane,目前已研究了他們從卡內基梅隆大學的研究資料庫TalkBank中獲得的數千個簡短音頻片段。他們發現,近40%的幻聽是有害的或令人擔憂的,因爲說話者的原意可能被曲解或歪曲。

研究人員並不確定Whisper和類似工具產生幻覺的原因,但軟件開發人員表示,這些胡編亂造往往發生在出現停頓、背景聲音或音樂播放時。OpenAI此前在網上披露的信息中曾建議,不要在決策情境中使用Whisper,因爲準確性上的缺陷會導致結果上的明顯缺陷。

而針對最新爆料,有OpenAI發言人迴應稱,OpenAI會在接下來的模型更新中加入相應的反饋機制。