比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實世界臨床研究實驗已有更驚艷表現(xiàn)

所屬欄目 : 新聞中心發(fā)布時間 : 2024-11-20 點擊量 : 101

AI問診會比真人醫(yī)生更準嗎？近日，美國斯坦福大學與OpenAI旗下產(chǎn)品ChatGPT4o進行的一輪隨機臨床試驗，再次將大眾的視線聚焦在大模型醫(yī)療應用領(lǐng)域。

從這次的實驗的紙面結(jié)果來看，GPT可謂是“強得可怕”。在人類醫(yī)生單獨做出診斷的情況下，準確率為74%；在AI輔助的情況下，準確率上升到 76%。

ChatGPT4o本次的實驗表現(xiàn)固然讓人感到眼前一亮。不過值得一提的是，在太平洋彼岸，他們的中國同行醫(yī)聯(lián)，在一年前就曾做過一份類似的“考卷”。

作為一家專注于嚴肅醫(yī)療的醫(yī)療大模型應用公司，早在2023年6月，醫(yī)聯(lián)MedGPT就在中國成都舉行了全球首次AI醫(yī)生與真人醫(yī)生的一致性評測，并進行了全天候?qū)崟r直播。最終的實驗結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達到了96%。

兩次測試都有著很高的實驗得分，那么，如果拿醫(yī)聯(lián)MedGPT在23年的真人實驗與ChatGPT4o在24年的實驗進行一次pk，誰會是優(yōu)勝一方？

一場跨越時間的實驗PK

眾所周知，在醫(yī)療領(lǐng)域，鑒于大語言模型（LLMs）嚴肅的預期用途，除了政府和機構(gòu)的強監(jiān)管之外，還需要開發(fā)機構(gòu)對大模型在臨床診療中的實用性和可靠性進行真實性實驗與評估。因此，我們的“對照PK”，也不妨從實驗時間、參加實驗真人醫(yī)生平均工作年限、實驗時長、實驗病例、測試方法、評價維度數(shù)量幾個角度來進行比對。

首先，我們從實驗及參與人員專業(yè)年限角度來進行分析，醫(yī)聯(lián)的實驗研究始于2023年6月，涉及四川大學華西醫(yī)院多科室的10位三甲醫(yī)院的主治醫(yī)師，7 位主任醫(yī)師參與，平均工作年限約為 12年，實驗共招募100余名真實患者，形成了91份有效病例，樣本具有一定的多樣性和臨床代表性，最終的實驗結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達到了96%。

而ChatGPT4o的實驗則是從2024年開始，研究團隊隨機從斯坦福大學、弗吉尼亞大學等機構(gòu)招募到了50名醫(yī)生，其中包括44名內(nèi)科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生，工作年限中位數(shù)為3年，對105例病歷進行實驗測試。

對比后不難發(fā)現(xiàn)，兩項研究均涵蓋了不同層級的醫(yī)生，但醫(yī)聯(lián)的研究涉及的科室更廣，參與醫(yī)生的工作經(jīng)驗明顯高于ChatGPT4o, 且是前瞻性驗證研究。考慮到兩次實驗的實操時間，從時間維度來看，醫(yī)聯(lián)的實驗無疑更具有前瞻性。

再從測試方法和評價維度數(shù)量來看，ChatGPT4o的實驗主要基于結(jié)構(gòu)化反思工具，包括鑒別診斷準確性、支持和反對因素的合理性以及下一步診斷評估步驟等三個方面評分注重診斷。

而醫(yī)聯(lián)MedGPT的研究設計維度更為豐富細致，研究設立針對AI醫(yī)生的問診準確性、診斷準確性、治療建議準確性、輔助檢查方案準確性、數(shù)據(jù)分析準確性、提供可解釋信息、自然語言問診與交互這七個評價維度進行打分。全面覆蓋了臨床診療的關(guān)鍵環(huán)節(jié)，實現(xiàn)了從問診到治療建議等多方面評估。

最后，我們以實驗是否貼近臨床場景進行對比。ChatGPT4o的實驗中，醫(yī)生需要在1個小時時間內(nèi)，完成6個病例的結(jié)構(gòu)化反思表格，本質(zhì)上還是“做題”模式，并未切入臨床實際問診環(huán)境；

而醫(yī)聯(lián)MedGPT則是將實驗直接搬到醫(yī)院，在8個小時的實驗時間中，患者除了與真人醫(yī)生和AI醫(yī)生完成多輪面對面溝通外，還支持為患者開具檢查單或診斷，在患者獲得檢查結(jié)果后進行復診，并由AI醫(yī)生及真人醫(yī)生提供臨床診斷及治療方案。通過以上流程，可以更大化的還原真實就醫(yī)問診環(huán)境。從擬真性和可及性角度來說，MedGPT無疑也更勝一籌。

通過以上的實驗對比，不難發(fā)現(xiàn)，無論是實驗的設計、參與人員的專業(yè)度、是否還原真實問診環(huán)節(jié)這幾個維度，最終的實驗結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達到了96%。MedGPT在23年6月的實驗都更勝一籌。通過嚴謹?shù)呐R床試驗方案及評估體系，有望成為醫(yī)生的得力助手，為提高醫(yī)療服務質(zhì)量和效率提供有力支持，推動醫(yī)療行業(yè)向智能化方向發(fā)展。

AI醫(yī)療，未來已至？

現(xiàn)階段，醫(yī)療行業(yè)還存在著資源分配不均，邊緣地區(qū)患者難以接觸到優(yōu)質(zhì)醫(yī)療資源等痛點，而AI醫(yī)療可以有效補充醫(yī)療資源，助力全民健康生活水平的提升，有利于補全基層診療服務短板，強化公共衛(wèi)生服務效率，幫助解決優(yōu)質(zhì)醫(yī)療資源相對匱乏和基層醫(yī)療服務能力不足的結(jié)構(gòu)性難題。

AI診療產(chǎn)品的想象空間有多大，取決于AI醫(yī)生診斷的可靠度、可信度、一致性有多高。醫(yī)聯(lián)通過多次模擬，驗證了MedGPT已經(jīng)具備了通過問詢方式給到患者較高準確率的問診能力，對于醫(yī)療診斷的革新具備突破性的價值。

目前，MedGPT已經(jīng)可以實現(xiàn)常見疾病咨詢、緊急處理咨詢、AI語音圖像識別、慢性病管理咨詢、診后康復咨詢等功能?；颊卟挥迷僖揽克阉饕娅@取未經(jīng)過濾的醫(yī)學內(nèi)容，在前往醫(yī)院就診前，也可以通過與AI醫(yī)生的簡單咨詢得到相對準確的初步判斷，大大降低了患者的就醫(yī)成本和醫(yī)院的診療壓力。

未來，醫(yī)聯(lián)將繼續(xù)深耕大語言模型技術(shù)，持續(xù)提升AI醫(yī)生在醫(yī)療領(lǐng)域的實際應用價值，爭取覆蓋常見病、急病和危重病的就診需求，將醫(yī)生從繁重的初級事務中解脫出來，更多地把精力傾斜到疑難重病的診療中。MedGPT將秉持著為醫(yī)生服務的初心，成為醫(yī)生診療過程中的“智慧AI助手”，為醫(yī)療行業(yè)的技術(shù)發(fā)展持續(xù)貢獻科技力量，力爭貫徹讓全人類健康壽命延長一年”的使命。

醫(yī)保壓力大商保賠付高？醫(yī)聯(lián)MedGPT控費實驗平均節(jié)省79%提供新解法醫(yī)聯(lián)獲抗疫互聯(lián)網(wǎng)醫(yī)療健康服務企業(yè)殊榮

比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實世界臨床研究實驗已有更驚艷表現(xiàn)

比OpenAI更早一年做到！2023 年醫(yī)聯(lián)MedGPT在真實世界臨床研究實驗已有更驚艷表現(xiàn)