AI問診會比真人醫(yī)生更準(zhǔn)嗎?近日,美國斯坦福大學(xué)與OpenAI旗下產(chǎn)品ChatGPT4o進(jìn)行的一輪隨機(jī)臨床試驗(yàn),再次將大眾的視線聚焦在大模型醫(yī)療應(yīng)用領(lǐng)域。
從這次的實(shí)驗(yàn)的紙面結(jié)果來看,GPT可謂是“強(qiáng)得可怕”。在人類醫(yī)生單獨(dú)做出診斷的情況下,準(zhǔn)確率為74%;在AI輔助的情況下,準(zhǔn)確率上升到 76%。
ChatGPT4o本次的實(shí)驗(yàn)表現(xiàn)固然讓人感到眼前一亮。不過值得一提的是,在太平洋彼岸,他們的中國同行醫(yī)聯(lián),在一年前就曾做過一份類似的“考卷”。
作為一家專注于嚴(yán)肅醫(yī)療的醫(yī)療大模型應(yīng)用公司,早在2023年6月,醫(yī)聯(lián)MedGPT就在中國成都舉行了全球首次AI醫(yī)生與真人醫(yī)生的一致性評測,并進(jìn)行了全天候?qū)崟r(shí)直播。最終的實(shí)驗(yàn)結(jié)果顯示,AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。
兩次測試都有著很高的實(shí)驗(yàn)得分,那么,如果拿醫(yī)聯(lián)MedGPT在23年的真人實(shí)驗(yàn)與ChatGPT4o在24年的實(shí)驗(yàn)進(jìn)行一次pk,誰會是優(yōu)勝一方?
一場跨越時(shí)間的實(shí)驗(yàn)PK
眾所周知,在醫(yī)療領(lǐng)域,鑒于大語言模型(LLMs)嚴(yán)肅的預(yù)期用途,除了政府和機(jī)構(gòu)的強(qiáng)監(jiān)管之外,還需要開發(fā)機(jī)構(gòu)對大模型在臨床診療中的實(shí)用性和可靠性進(jìn)行真實(shí)性實(shí)驗(yàn)與評估。因此,我們的“對照PK”,也不妨從實(shí)驗(yàn)時(shí)間、參加實(shí)驗(yàn)真人醫(yī)生平均工作年限、實(shí)驗(yàn)時(shí)長、實(shí)驗(yàn)病例、測試方法、評價(jià)維度數(shù)量幾個(gè)角度來進(jìn)行比對。
首先,我們從實(shí)驗(yàn)及參與人員專業(yè)年限角度來進(jìn)行分析,醫(yī)聯(lián)的實(shí)驗(yàn)研究始于2023年6月,涉及四川大學(xué)華西醫(yī)院多科室的10位三甲醫(yī)院的主治醫(yī)師,7 位主任醫(yī)師參與,平均工作年限約為 12年,實(shí)驗(yàn)共招募100余名真實(shí)患者,形成了91份有效病例,樣本具有一定的多樣性和臨床代表性,最終的實(shí)驗(yàn)結(jié)果顯示,AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。
而ChatGPT4o的實(shí)驗(yàn)則是從2024年開始,研究團(tuán)隊(duì)隨機(jī)從斯坦福大學(xué)、弗吉尼亞大學(xué)等機(jī)構(gòu)招募到了50名醫(yī)生,其中包括44名內(nèi)科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生,工作年限中位數(shù)為3年,對105例病歷進(jìn)行實(shí)驗(yàn)測試。
對比后不難發(fā)現(xiàn),兩項(xiàng)研究均涵蓋了不同層級的醫(yī)生,但醫(yī)聯(lián)的研究涉及的科室更廣,參與醫(yī)生的工作經(jīng)驗(yàn)明顯高于ChatGPT4o, 且是前瞻性驗(yàn)證研究。考慮到兩次實(shí)驗(yàn)的實(shí)操時(shí)間,從時(shí)間維度來看,醫(yī)聯(lián)的實(shí)驗(yàn)無疑更具有前瞻性。
再從測試方法和評價(jià)維度數(shù)量來看,ChatGPT4o的實(shí)驗(yàn)主要基于結(jié)構(gòu)化反思工具,包括鑒別診斷準(zhǔn)確性、支持和反對因素的合理性以及下一步診斷評估步驟等三個(gè)方面評分注重診斷。
而醫(yī)聯(lián)MedGPT的研究設(shè)計(jì)維度更為豐富細(xì)致,研究設(shè)立針對AI醫(yī)生的問診準(zhǔn)確性、診斷準(zhǔn)確性、治療建議準(zhǔn)確性、輔助檢查方案準(zhǔn)確性、數(shù)據(jù)分析準(zhǔn)確性、提供可解釋信息、自然語言問診與交互這七個(gè)評價(jià)維度進(jìn)行打分。全面覆蓋了臨床診療的關(guān)鍵環(huán)節(jié),實(shí)現(xiàn)了從問診到治療建議等多方面評估。
最后,我們以實(shí)驗(yàn)是否貼近臨床場景進(jìn)行對比。ChatGPT4o的實(shí)驗(yàn)中,醫(yī)生需要在1個(gè)小時(shí)時(shí)間內(nèi),完成6個(gè)病例的結(jié)構(gòu)化反思表格,本質(zhì)上還是“做題”模式,并未切入臨床實(shí)際問診環(huán)境;
而醫(yī)聯(lián)MedGPT則是將實(shí)驗(yàn)直接搬到醫(yī)院,在8個(gè)小時(shí)的實(shí)驗(yàn)時(shí)間中,患者除了與真人醫(yī)生和AI醫(yī)生完成多輪面對面溝通外,還支持為患者開具檢查單或診斷,在患者獲得檢查結(jié)果后進(jìn)行復(fù)診,并由AI醫(yī)生及真人醫(yī)生提供臨床診斷及治療方案。通過以上流程,可以更大 化的還原真實(shí)就醫(yī)問診環(huán)境。從擬真性和可及性角度來說,MedGPT無疑也更勝一籌。
通過以上的實(shí)驗(yàn)對比,不難發(fā)現(xiàn),無論是實(shí)驗(yàn)的設(shè)計(jì)、參與人員的專業(yè)度、是否還原真實(shí)問診環(huán)節(jié)這幾個(gè)維度,最終的實(shí)驗(yàn)結(jié)果顯示,AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。MedGPT在23年6月的實(shí)驗(yàn)都更勝一籌。通過嚴(yán)謹(jǐn)?shù)呐R床試驗(yàn)方案及評估體系,有望成為醫(yī)生的得力助手,為提高醫(yī)療服務(wù)質(zhì)量和效率提供有力支持,推動醫(yī)療行業(yè)向智能化方向發(fā)展。
AI醫(yī)療,未來已至?
現(xiàn)階段,醫(yī)療行業(yè)還存在著資源分配不均,邊緣地區(qū)患者難以接觸到優(yōu)質(zhì)醫(yī)療資源等痛點(diǎn),而AI醫(yī)療可以有效補(bǔ)充醫(yī)療資源,助力全民健康生活水平的提升,有利于補(bǔ)全基層診療服務(wù)短板,強(qiáng)化公共衛(wèi)生服務(wù)效率,幫助解決優(yōu)質(zhì)醫(yī)療資源相對匱乏和基層醫(yī)療服務(wù)能力不足的結(jié)構(gòu)性難題。
AI診療產(chǎn)品的想象空間有多大,取決于AI醫(yī)生診斷的可靠度、可信度、一致性有多高。醫(yī)聯(lián)通過多次模擬,驗(yàn)證了MedGPT已經(jīng)具備了通過問詢方式給到患者較高準(zhǔn)確率的問診能力,對于醫(yī)療診斷的革新具備突破性的價(jià)值。
目前,MedGPT已經(jīng)可以實(shí)現(xiàn)常見疾病咨詢、緊急處理咨詢、AI語音圖像識別、慢性病管理咨詢、診后康復(fù)咨詢等功能?;颊卟挥迷僖揽克阉饕娅@取未經(jīng)過濾的醫(yī)學(xué)內(nèi)容,在前往醫(yī)院就診前,也可以通過與AI醫(yī)生的簡單咨詢得到相對準(zhǔn)確的初步判斷,大大降低了患者的就醫(yī)成本和醫(yī)院的診療壓力。
未來,醫(yī)聯(lián)將繼續(xù)深耕大語言模型技術(shù),持續(xù)提升AI醫(yī)生在醫(yī)療領(lǐng)域的實(shí)際應(yīng)用價(jià)值,爭取覆蓋常見病、急病和危重病的就診需求,將醫(yī)生從繁重的初級事務(wù)中解脫出來,更多地把精力傾斜到疑難重病的診療中。MedGPT將秉持著為醫(yī)生服務(wù)的初心,成為醫(yī)生診療過程中的“智慧AI助手”,為醫(yī)療行業(yè)的技術(shù)發(fā)展持續(xù)貢獻(xiàn)科技力量,力爭貫徹讓全人類健康壽命延長一年”的使命。
2014-2024 醫(yī)聯(lián)
蜀ICP備14021831號
互聯(lián)網(wǎng)藥品信息服務(wù)資格證編號(川)-經(jīng)營性-2021-0058
成都醫(yī)云科技有限公司 All Rights Reserved
地址:北京市朝陽區(qū)金桐西路遠(yuǎn)洋光華國際大廈AB座22層