比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實(shí)世界臨床研究實(shí)驗(yàn)已有更驚艷表現(xiàn)

所屬欄目 : 新聞中心發(fā)布時(shí)間 : 2024-11-20 點(diǎn)擊量 : 70

AI問診會比真人醫(yī)生更準(zhǔn)嗎？近日，美國斯坦福大學(xué)與OpenAI旗下產(chǎn)品ChatGPT4o進(jìn)行的一輪隨機(jī)臨床試驗(yàn)，再次將大眾的視線聚焦在大模型醫(yī)療應(yīng)用領(lǐng)域。

從這次的實(shí)驗(yàn)的紙面結(jié)果來看，GPT可謂是“強(qiáng)得可怕”。在人類醫(yī)生單獨(dú)做出診斷的情況下，準(zhǔn)確率為74%；在AI輔助的情況下，準(zhǔn)確率上升到 76%。

ChatGPT4o本次的實(shí)驗(yàn)表現(xiàn)固然讓人感到眼前一亮。不過值得一提的是，在太平洋彼岸，他們的中國同行醫(yī)聯(lián)，在一年前就曾做過一份類似的“考卷”。

作為一家專注于嚴(yán)肅醫(yī)療的醫(yī)療大模型應(yīng)用公司，早在2023年6月，醫(yī)聯(lián)MedGPT就在中國成都舉行了全球首次AI醫(yī)生與真人醫(yī)生的一致性評測，并進(jìn)行了全天候?qū)崟r(shí)直播。最終的實(shí)驗(yàn)結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。

兩次測試都有著很高的實(shí)驗(yàn)得分，那么，如果拿醫(yī)聯(lián)MedGPT在23年的真人實(shí)驗(yàn)與ChatGPT4o在24年的實(shí)驗(yàn)進(jìn)行一次pk，誰會是優(yōu)勝一方？

一場跨越時(shí)間的實(shí)驗(yàn)PK

眾所周知，在醫(yī)療領(lǐng)域，鑒于大語言模型（LLMs）嚴(yán)肅的預(yù)期用途，除了政府和機(jī)構(gòu)的強(qiáng)監(jiān)管之外，還需要開發(fā)機(jī)構(gòu)對大模型在臨床診療中的實(shí)用性和可靠性進(jìn)行真實(shí)性實(shí)驗(yàn)與評估。因此，我們的“對照PK”，也不妨從實(shí)驗(yàn)時(shí)間、參加實(shí)驗(yàn)真人醫(yī)生平均工作年限、實(shí)驗(yàn)時(shí)長、實(shí)驗(yàn)病例、測試方法、評價(jià)維度數(shù)量幾個(gè)角度來進(jìn)行比對。

首先，我們從實(shí)驗(yàn)及參與人員專業(yè)年限角度來進(jìn)行分析，醫(yī)聯(lián)的實(shí)驗(yàn)研究始于2023年6月，涉及四川大學(xué)華西醫(yī)院多科室的10位三甲醫(yī)院的主治醫(yī)師，7 位主任醫(yī)師參與，平均工作年限約為 12年，實(shí)驗(yàn)共招募100余名真實(shí)患者，形成了91份有效病例，樣本具有一定的多樣性和臨床代表性，最終的實(shí)驗(yàn)結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。

而ChatGPT4o的實(shí)驗(yàn)則是從2024年開始，研究團(tuán)隊(duì)隨機(jī)從斯坦福大學(xué)、弗吉尼亞大學(xué)等機(jī)構(gòu)招募到了50名醫(yī)生，其中包括44名內(nèi)科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生，工作年限中位數(shù)為3年，對105例病歷進(jìn)行實(shí)驗(yàn)測試。

對比后不難發(fā)現(xiàn)，兩項(xiàng)研究均涵蓋了不同層級的醫(yī)生，但醫(yī)聯(lián)的研究涉及的科室更廣，參與醫(yī)生的工作經(jīng)驗(yàn)明顯高于ChatGPT4o, 且是前瞻性驗(yàn)證研究。考慮到兩次實(shí)驗(yàn)的實(shí)操時(shí)間，從時(shí)間維度來看，醫(yī)聯(lián)的實(shí)驗(yàn)無疑更具有前瞻性。

再從測試方法和評價(jià)維度數(shù)量來看，ChatGPT4o的實(shí)驗(yàn)主要基于結(jié)構(gòu)化反思工具，包括鑒別診斷準(zhǔn)確性、支持和反對因素的合理性以及下一步診斷評估步驟等三個(gè)方面評分注重診斷。

而醫(yī)聯(lián)MedGPT的研究設(shè)計(jì)維度更為豐富細(xì)致，研究設(shè)立針對AI醫(yī)生的問診準(zhǔn)確性、診斷準(zhǔn)確性、治療建議準(zhǔn)確性、輔助檢查方案準(zhǔn)確性、數(shù)據(jù)分析準(zhǔn)確性、提供可解釋信息、自然語言問診與交互這七個(gè)評價(jià)維度進(jìn)行打分。全面覆蓋了臨床診療的關(guān)鍵環(huán)節(jié)，實(shí)現(xiàn)了從問診到治療建議等多方面評估。

最后，我們以實(shí)驗(yàn)是否貼近臨床場景進(jìn)行對比。ChatGPT4o的實(shí)驗(yàn)中，醫(yī)生需要在1個(gè)小時(shí)時(shí)間內(nèi)，完成6個(gè)病例的結(jié)構(gòu)化反思表格，本質(zhì)上還是“做題”模式，并未切入臨床實(shí)際問診環(huán)境；

而醫(yī)聯(lián)MedGPT則是將實(shí)驗(yàn)直接搬到醫(yī)院，在8個(gè)小時(shí)的實(shí)驗(yàn)時(shí)間中，患者除了與真人醫(yī)生和AI醫(yī)生完成多輪面對面溝通外，還支持為患者開具檢查單或診斷，在患者獲得檢查結(jié)果后進(jìn)行復(fù)診，并由AI醫(yī)生及真人醫(yī)生提供臨床診斷及治療方案。通過以上流程，可以更大化的還原真實(shí)就醫(yī)問診環(huán)境。從擬真性和可及性角度來說，MedGPT無疑也更勝一籌。

通過以上的實(shí)驗(yàn)對比，不難發(fā)現(xiàn)，無論是實(shí)驗(yàn)的設(shè)計(jì)、參與人員的專業(yè)度、是否還原真實(shí)問診環(huán)節(jié)這幾個(gè)維度，最終的實(shí)驗(yàn)結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。MedGPT在23年6月的實(shí)驗(yàn)都更勝一籌。通過嚴(yán)謹(jǐn)?shù)呐R床試驗(yàn)方案及評估體系，有望成為醫(yī)生的得力助手，為提高醫(yī)療服務(wù)質(zhì)量和效率提供有力支持，推動醫(yī)療行業(yè)向智能化方向發(fā)展。

AI醫(yī)療，未來已至？

現(xiàn)階段，醫(yī)療行業(yè)還存在著資源分配不均，邊緣地區(qū)患者難以接觸到優(yōu)質(zhì)醫(yī)療資源等痛點(diǎn)，而AI醫(yī)療可以有效補(bǔ)充醫(yī)療資源，助力全民健康生活水平的提升，有利于補(bǔ)全基層診療服務(wù)短板，強(qiáng)化公共衛(wèi)生服務(wù)效率，幫助解決優(yōu)質(zhì)醫(yī)療資源相對匱乏和基層醫(yī)療服務(wù)能力不足的結(jié)構(gòu)性難題。

AI診療產(chǎn)品的想象空間有多大，取決于AI醫(yī)生診斷的可靠度、可信度、一致性有多高。醫(yī)聯(lián)通過多次模擬，驗(yàn)證了MedGPT已經(jīng)具備了通過問詢方式給到患者較高準(zhǔn)確率的問診能力，對于醫(yī)療診斷的革新具備突破性的價(jià)值。

目前，MedGPT已經(jīng)可以實(shí)現(xiàn)常見疾病咨詢、緊急處理咨詢、AI語音圖像識別、慢性病管理咨詢、診后康復(fù)咨詢等功能?；颊卟挥迷僖揽克阉饕娅@取未經(jīng)過濾的醫(yī)學(xué)內(nèi)容，在前往醫(yī)院就診前，也可以通過與AI醫(yī)生的簡單咨詢得到相對準(zhǔn)確的初步判斷，大大降低了患者的就醫(yī)成本和醫(yī)院的診療壓力。

未來，醫(yī)聯(lián)將繼續(xù)深耕大語言模型技術(shù)，持續(xù)提升AI醫(yī)生在醫(yī)療領(lǐng)域的實(shí)際應(yīng)用價(jià)值，爭取覆蓋常見病、急病和危重病的就診需求，將醫(yī)生從繁重的初級事務(wù)中解脫出來，更多地把精力傾斜到疑難重病的診療中。MedGPT將秉持著為醫(yī)生服務(wù)的初心，成為醫(yī)生診療過程中的“智慧AI助手”，為醫(yī)療行業(yè)的技術(shù)發(fā)展持續(xù)貢獻(xiàn)科技力量，力爭貫徹讓全人類健康壽命延長一年”的使命。

醫(yī)保壓力大商保賠付高？醫(yī)聯(lián)MedGPT控費(fèi)實(shí)驗(yàn)平均節(jié)省79%提供新解法規(guī)范健康科普醫(yī)聯(lián)攜手健促會舉辦醫(yī)務(wù)人員教育能力線上培訓(xùn)

比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實(shí)世界臨床研究實(shí)驗(yàn)已有更驚艷表現(xiàn)

比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實(shí)世界臨床研究實(shí)驗(yàn)已有更驚艷表現(xiàn)