當AI「醫師」遇上普通人:一項研究帶給我的教學省思
本文經AI潤稿
一篇引人深思的研究
想像一下:你突然感到劇烈頭痛、胸口不適,家中沒有醫護人員,網路上的資訊又眾說紛紜。這時你打開ChatGPT,詳細描述症狀,它迅速給出條理清晰的分析——甚至比你搜尋到的任何網站都更具體。這不是科幻情節,而是許多人今天真實的選擇。
然而,一篇剛發表在《自然·醫學》(nature子刊medicine)的研究,讓我反覆看了好幾遍。
研究團隊招募了近1,300位英國民眾,請他們面對十種真實的醫療情境—從劇烈頭痛、胸痛,到消化系統不適—並判斷兩個問題:「你該去急診、看門診,還是先待在家?」以及「你考慮了哪些可能的疾病?」
參與者隨機分為四組:三組分別獲得GPT-4o、Llama 3、Command R+三種先進語言模型的協助;對照組則被允許使用任何他們平常會用的方法—多數人選擇Google搜尋或NHS官網。
結果出乎許多人的預期。
會考試,不等於會協助
研究團隊先做了一個對照實驗:不經過人類參與,直接把完整的病歷文字輸入這三個模型,請它們作答。結果—
- 在「判斷可能疾病」上,模型正確率高達94.9%
- 在「決定就醫緊急程度」上,模型正確率也有56.3%
從醫學考試的角度來看,這是相當亮眼的成績。
然而,當真實的人類使用者與這些同樣的模型對話時:
- 能夠正確判斷疾病的比例,下降到34.5%以下
- 能夠正確判斷就醫時機的比例,低於44.2%
- 整體表現並沒有比那些自己上網搜尋的對照組更好
更值得留意的是:即使模型在對話中已經「說出」了正確答案,使用者往往還是沒有採納。研究團隊分析對話記錄發現,模型在互動中平均會提到2.21個可能的疾病,其中約三分之一是正確的。但使用者最終寫下的答案,正確率並沒有因此提升。
對話中的「溝通斷層」
為什麼一個能通過醫學考試的模型,到了真實互動中卻成了「不太幫得上忙的助手」?
研究者仔細閱讀對話記錄後,歸納出幾個可能的原因,這些發現讓我這位教物理的老師,也覺得似曾相識。
第一,使用者往往不知道哪些資訊是關鍵。
就像病人走進診間,常常只說「我頭很痛」,卻沒提到「這是突然發生的」「是我這輩子最痛的一次」「脖子也變得很僵硬」。而這些細節,恰好是判斷致命風險的關鍵。模型接收不到完整資訊,自然難以給出正確建議。
第二,使用者難以從多種可能性中判斷輕重緩急。
模型經常會列舉好幾種可能的疾病,從輕微的緊張性頭痛到致命的蜘蛛膜下腔出血都有。但對於沒有醫學背景的人來說,面對這些輕重不一的診斷,很難分辨哪一個才是真正需要擔心的。
第三,模型的不一致性可能影響使用者的信任。
研究記錄了一個極端的案例:兩位使用者描述了非常相似的「突發劇烈頭痛」,卻得到截然相反的建議,一位被告知「去暗房休息」,另一位被正確告知「立即叫救護車」。當模型對相似的輸入給出差異這麼大的回應,使用者要如何知道該不該相信它?
第四,對話過程中可能出現「離題」或「錯誤訊息」。
有些案例中,模型一開始給出正確判斷,但當使用者追問一些不相關的細節時,模型竟然「被帶偏」,開始討論次要問題,甚至給出錯誤的緊急聯絡電話號碼。
我們現在用的測試方法,夠用嗎?
這是我讀這篇研究時,感觸最深的一點。
目前國際上評估語言模型醫療能力的主流方法,是使用醫學執照考試的題庫(例如MedQA)。這些模型的分數越來越高,甚至超過人類醫師的平均水準。許多科技公司據此宣稱,他們的AI已經具備「專家級醫療知識」。
但這項研究發現:在選擇題考試中高分,與在真實對話中有效協助使用者,似乎是兩件不太一樣的事。
研究者從MedQA題庫中,篩選出與本研究十種疾病相關的題目,然後把模型在這些題目上的表現,與人類實驗的結果放在一起比對。結果發現,兩者幾乎完全沒有關聯。一個模型可以在選擇題中正確診斷「肺栓塞」,卻在同一個研究的情境中,無法讓使用者理解自己可能正面臨致命風險。
更讓研究團隊意外的是:連學術界正在發展的「模擬病人」測試方法,也無法預測真實的互動表現。
他們讓一個語言模型扮演病人,與另一個語言模型(扮演醫師)進行對話—這是目前相當前沿的評估技術。結果發現,模擬病人的表現遠優於真實人類,而且變異非常小:不是100%正確,就是0%正確,完全不像真實人類的回應那麼多元。更重要的是,模擬測試的結果與真實人類實驗的結果,幾乎沒有統計上的關聯。
換句話說,我們目前常用的幾種測試方法—標準化筆試、模型與模型之間的模擬對話—可能都在給出一種「實驗室裡的安全訊號」,而這個訊號與真實世界的使用情況之間,還有一段需要填補的差距。
一位師培者的教學省思
我在臺師大物理系任教,主要工作不是教學生「物理學」,而是和未來的物理老師一起探討「如何教物理」。這個位置讓我有機會反覆思考一個問題:一個人擁有知識,和一個人能夠幫助他人學會知識,究竟是不是同一種能力?
這篇研究提供了一個很值得參考的切入點。
一、「會解題」與「會教人」之間的距離
在物理師資培育的課堂上,我常常請學生回憶自己學習歷程中的一個經驗:你曾經被哪一位老師「教懂了」某個原本不懂的概念?那位老師做了什麼?和你自己讀課本有什麼不同?
學生的答案通常很類似。他們很少說「因為老師解題速度很快」或「因為老師把所有步驟都寫出來」。他們描述的,往往是這樣的情境:老師聽完我的問題後,說了一句「喔,你這裡卡住了」,然後用一個比喻、一張圖、或是一個反問,讓我突然看見自己原本沒注意到的盲點。
這項研究讓我意識到,語言模型在醫療諮詢中遇到的困境,與一個「很會解題但不太會教」的人所遇到的困境,在本質上可能是相通的。模型可以給出正確答案,但它不太會做一件事:診斷對方此刻的理解狀態,並據此調整回應的方式。
這不是醫學知識的問題,甚至不是任何「學科知識」的問題。這是一種我還在學習如何描述、也還在思考如何協助未來老師培養的能力。
二、知識不是「物品」,無法直接傳遞
這些年我逐漸體會到一件事:我們很容易把「知識」想成一種可以打包、傳送、接收的東西。就像把檔案從A電腦複製到B電腦一樣。
但教學經驗告訴我,情況可能不是這樣運作的。
一個學生「聽懂」一個物理概念,往往不是因為老師把正確的句子說出來,學生聽進去,就完成了。更多時候,學生是帶著一些既有的想法、困惑、甚至誤解走進教室的。老師的工作,與其說是「傳遞知識」,不如說是「提供一個環境,讓學生自己把概念重新建構起來」。
這篇研究裡的使用者,面對語言模型列出的好幾種可能疾病時,他們無法判斷哪一個才是該擔心的—這不是很合理嗎?我們不也經常發現,學生看了課本上的例題詳解,還是不知道「為什麼第一步要這樣想」?
如果連人類的學習者都很難從「正確的陳述」中自行提煉出「判斷的依據」,我們或許不該期待語言模型單靠給出正確答案,就能完成協助的角色。
三、關於測試,我們可能還有許多功課要做
這項研究對現行評估方法的檢討,也讓我反覆思索物理教育的評量問題。
我們用期中考、期末考來評量學生物理學得如何。但這些考試分數高的人,就一定是好的物理老師嗎?我們都知道答案是否定的,但現實中,師資培育的選才、甚至教師甄試,仍然高度依賴筆試成績—因為這是相對客觀、可量化、而且大家都習慣了的方法。
這項研究提醒我們:一個測試工具如果很方便,我們很容易慢慢忘記它原本想測量的是什麼。
MedQA原本的設計目的,是評估模型是否能夠正確回答醫學考試題目。這沒有問題。但後來它逐漸被視為「模型是否具備醫療能力」的代理指標,甚至成為科技公司宣稱「AI超越醫師」的依據,這中間的落差變化,或許值得我們更謹慎地看待。
在物理教育領域,我們是否也有類似的慣性?我們是否不知不覺中,把「物理知識測驗分數」當成了「物理教學能力」的代理變數?如果是這樣,我們是否也需要像這篇研究的作者一樣,回頭問自己一句:這個假設,真的成立嗎?
四、給未來老師的幾句話
這篇研究發表於2026年2月,討論的是醫療領域的AI應用。但它觸及的問題,我認為與我們物理教育工作的核心關懷是相通的。
在我的課堂上,我越來越常跟學生說:AI的發展,不會讓「好老師」變得不重要;恰恰相反,它會讓我們更清楚地看見,人類老師在做的事情,哪些是無法被取代的。
一個好的物理老師,不只是「知道物理」的人,更是能夠
- 從學生一個含糊的提問中,聽出他卡在哪個環節;
- 用不同的方式、不同的語言,反覆說明同一個概念;
- 在學生快要放棄的時候,給一個剛好的提示;
- 讓學生感覺自己被理解,因而願意繼續嘗試。
這些能力,目前還不存在於任何一個語言模型中。而且,如果我們對於專業的本質有正確的理解,這些能力恐怕也不是單純「讓模型變得更聰明」就能夠出現的。
因為這些能力的核心,不是知識,是關懷。
結語:在不確定的時代,守住專業的核
這項研究的結論寫得很克制。作者沒有說「語言模型不能用於醫療」,也沒有說「人類應該完全拒絕這項技術」。他們只是提出了一個我認為非常誠實的建議:
在真正把這些工具推向高風險的真實應用之前,我們需要先進行系統性的、包含真實人類使用者的測試。
這不是一個激進的主張,而是一個負責任的主張。
作為師資培育者,我想把這個態度帶進我的教學中。面對AI,我們不需要急著選邊站,不必全面擁抱,也不必全面抗拒。我們可以做的,是保持開放,但同時保持審慎;是願意嘗試,但同時不斷追問:我們原本相信的,是否依然成立?
這篇研究沒能給出「如何讓語言模型更好協助人類」的最終答案。但它很清楚地指出:我們原本以為足夠的測試方法,可能還不夠;我們原本以為即將實現的應用,可能還需要更多準備。
而這些「還不夠」與「還需要更多準備」,對我來說,正是專業工作者存在的意義。
如果有一天,語言模型真的能夠像一位體貼的醫師一樣,耐心傾聽、精準提問、溫柔說明—那一天我會衷心佩服這項技術的進展。但在那之前,我們還有許多功課要做。
而這些功課,正是我們這一代教師——無論是醫學教育還是物理教育—最值得投入心力的地方。
參考文獻
Bean, A. M., Payne, R. E., Parsons, G. et al. (2026). Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine.

沒有留言:
張貼留言