美國醫學會兒科雜誌:ChatGPT在診斷兒科病例時準確率較低

·三名研究者指出,ChatGPT明顯還無法成爲合格的診斷工具,但他們也提出,更多的選擇性訓練或許能夠改善測試的結果。他們還認爲,即便ChatGPT這樣的大語言模型在臨牀診斷上的能力還有待觀察,它們仍舊能成爲醫生得力的行政助手,在撰寫研究報告和生成醫學建議上爲醫生和患者提供幫助。

以ChatGPT(OpenAI研發的一款聊天機器人程序)爲代表的大語言模型(Large Language Models,LLM)或許在未來的某一天能夠取代醫生爲病人作出診斷。然而近期的一項研究發現,ChatGPT要成爲一名合格的兒科醫生可能還有很長的路要走。

2024年1月2日,美國紐約科恩兒童醫學中心的Joseph Barile等人所組成的一支三人研究團隊在《美國醫學會兒科雜誌》(JAMA Pediatrics)上發表了題爲《一個大語言模型在診斷兒科病例時的準確性》(Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies)的研究報告。通過研究ChatGPT在診斷100個隨機兒科病例中的表現,研究者們發現它的診斷正確率僅爲17%,因此判斷目前ChatGPT缺乏兒科診斷的能力。

兒科診斷的挑戰在於,除了症狀之外,醫生還必須考慮患者的年齡。不同於成人患者,兒童患者的病史一般由家長或者其他看護者提供,因此詢問時更加困難。兒童的陳述則容易因爲害怕治療或者表達能力欠缺等而誤述,需要醫生來辨別真僞。因此兒科診斷對醫生的耐心、觀察能力和專業能力都有着獨特的高要求。

研究者們觀察到,近期兒科醫學界中的一些人將大語言模型視爲很有前途的診斷工具並加以積極推廣。以ChatGPT爲代表的大語言模型是一種利用機器學習技術來理解人類語言的人工智能模型。使用大量語言數據(訓練ChatGPT的數據超過了3000億個單詞)訓練擁有大量參數(通常超過數十億個)的人工智能模型之後,它們產生了聯繫上下文並預測對話的能力。

與專精某個具體領域的“小模型”不同,大語言模型展現出廣泛的理解能力,能夠與人類進行更加自然的對話。同時,由於大語言模型所使用的大量數據涉及到各種專業知識,它們在討論專業話題時也展現出驚人的深度,常常能夠提出合理的專業建議。

爲了測試大語言模型在兒科領域的診斷能力,該研究隨機收集了100個兒科病例,並要求ChatGPT來診斷它們。研究方式很簡單,對於每個病例,他們首先將其中的文字描述黏貼給ChatGPT,隨後在這些文字之後加上一條命令:“列出一項鑑別診斷以及一項最終診斷。”

鑑別診斷(differential diagnosis)是指利用患者的病史和生理檢查來提出一個或數個初步診斷的方法,用來初步確定病因的範圍。最終診斷(final diagnosis)則是指醫生對病因的最終判斷。ChatGPT所給出的回答被交給兩名之前不曾參與該研究的醫生進行評價。評價包含“正確”“不正確”以及“不完全正確”三種。

最終研究者們發現,ChatGPT的最終診斷僅獲得17次“正確”。有11次診斷在臨牀上與正確診斷相關,但仍是錯誤的。三名研究者指出,ChatGPT明顯還無法成爲合格的診斷工具,但他們也提出更多的選擇性訓練或許能夠改善測試的結果。他們還認爲,即便ChatGPT這樣的大語言模型在臨牀診斷上的能力還有待觀察,它們仍舊能成爲醫生得力的行政助手,在撰寫研究報告和生成醫學建議上爲醫生和患者提供幫助。

之前有研究指出ChatGPT在急診的鑑別診斷中表現出了很高的水平。Hidde ten Berg等人於2023年9月9日在《急診醫學年鑑》(Annals of Emergency Medicine)發表的論文指出,ChatGPT在急症鑑別診斷中的表現並不比人類醫生差。

在這項研究中,研究人員將30名急診病人的檢查結果、症狀以及醫生筆記輸入ChatGPT,要求它鑑別診斷並生成一份可能病因的列表。最終,ChatGPT的診斷列表與醫生的列表有60%的重合。醫生的鑑別診斷中包含正確最終診斷的案例佔全部案例的87%,ChatGPT 4.0版本的表現與之相同,而ChatGPT 3.5版本的表現最好,準確率高達97%。

除了在鑑別診斷中有優異的表現之外,ChatGPT也被報道能夠診斷罕見病。2023年9月12日,美國媒體報道了ChatGPT成功診斷一名7歲的“脊髓拴系綜合徵”(Tethered Cord Syndrome, TCS)患者的故事。

即便ChatGPT在醫學診斷方面有巨大潛力,醫學界普遍認爲它還不是一項醫療工具。2023年5月16日,世界衛生組織(WHO)在一份聲明中呼籲公衆以及業界謹慎對待大語言模型在醫療方面的使用。“雖然正確使用包括大語言模型在內的新科技來支持醫生、患者、研究者以及科學家是一件令人振奮的事,但是大語言模型還需要經過很多倫理與安全性方面的驗證。”

WHO指出,大語言模型的意見會顯得非常有說服力,但仍有可能是錯的。如果發生嚴重的醫療事故,公衆對這項有潛力的技術可能會失去信任。

參考資料:

1.ChatGPT and Generating a Differential Diagnosis Early in an Emergency Department Presentation

https://www.annemergmed.com/article/S0196-0644(23)00642-X/fulltext

2.Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies

https://jamanetwork.com/journals/jamapediatrics/article-abstract/2813283

3.Toddler whose symptoms puzzled 17 doctors for three YEARS is finally diagnosed with rare condition... by ChatGPT

https://www.dailymail.co.uk/health/article-12509111/ChatGPT-diagnosis-rare-condition.html

4.WHO calls for safe and ethical AI for health

https://www.who.int/news/item/16-05-2023-who-calls-for-safe-and-ethical-ai-for-health