MedGPT：基于權(quán)威RAG評估框架展現(xiàn)優(yōu)秀醫(yī)療性能

所屬欄目 : 新聞中心發(fā)布時間 : 2025-01-22 點擊量 : 1577

檢索增強生成（RAG，Retrieval-Augmented Generation）技術(shù)正革新AI應(yīng)用領(lǐng)域，它整合外部知識庫與 LLM（Large Language Model，大語言模型）內(nèi)部知識，提高了 AI 系統(tǒng)的準(zhǔn)確性和可靠性。多模態(tài)知識提取器的知識“召回能力”直接決定了大模型在回答推理時能否獲得準(zhǔn)確的專業(yè)知識。

但隨著 RAG 系統(tǒng)廣泛應(yīng)用，其評估和優(yōu)化面臨挑戰(zhàn)?，F(xiàn)有的評估方法難以全面體現(xiàn) RAG 系統(tǒng)的復(fù)雜性和實際表現(xiàn)。近日，亞馬遜、上海人工智能研究院推出 RAGChecker 診斷工具，可為 RAG 系統(tǒng)提供細(xì)粒度、全面且可靠的診斷報告，并指明提升性能的操作方向。

RAGChecker框架設(shè)計了包括整體指標(biāo)、診斷檢索器指標(biāo)和診斷生成器指標(biāo)在內(nèi)的一套全面評估體系。通過對包含查詢、文檔和真實答案的樣本進(jìn)行輸入，并借助大型語言模型將文本分解為獨立的聲明再通過另一個模型驗證每個聲明的準(zhǔn)確性，實現(xiàn)對模型的細(xì)粒度評估。

在相關(guān)研究中，RAGChecker經(jīng)過嚴(yán)格的實驗驗證，其與人類判斷的相關(guān)性遠(yuǎn)超 BLEU、ROUGE、BERTScore 等傳統(tǒng)評估指標(biāo)，這充分彰顯了其科學(xué)性和可靠性。RAGCHECKER的指標(biāo)還可以幫助實踐者開發(fā)和評估更有效的RAG系統(tǒng)，并通過調(diào)整RAG系統(tǒng)的設(shè)置（如檢索器的數(shù)量、塊大小、塊重疊比例和生成提示）來提供改進(jìn)建議?；谶@樣一個權(quán)威的評估框架，我們對MedGPT這一醫(yī)療垂直大模型進(jìn)行了全面的性能測試。

Figure：Illustration of the proposed metrics in RAGChecker

本次測試選取了30個來自專業(yè)醫(yī)生模擬的醫(yī)療專業(yè)問題，測試結(jié)果顯示，MedGPT 在多個關(guān)鍵指標(biāo)上展現(xiàn)出了顯著的優(yōu)勢。

在整體評估方面（衡量整個RAG流程的整體質(zhì)量），MedGPT 的精度（precision）達(dá)到了 65.4，召回（recall）為 58.3，F(xiàn)1 score達(dá)到 59.9，這些指標(biāo)相較于參考原文中提到其他模型的更佳分?jǐn)?shù)在表現(xiàn)出更優(yōu)的得分。這意味著 MedGPT 在處理醫(yī)療問題時，能夠更精準(zhǔn)地命中關(guān)鍵信息，并且全面地覆蓋問題相關(guān)的知識領(lǐng)域，為醫(yī)療決策提供有力的數(shù)據(jù)支持。

在檢索維度上（查找相關(guān)信息的優(yōu)勢和劣勢能力），上下文精度（context precision）達(dá)到 62.2。這表明 MedGPT 在檢索醫(yī)療知識時，能夠以較高的精準(zhǔn)度篩選出與問題緊密相關(guān)的內(nèi)容，確保為后續(xù)的答案生成提供高質(zhì)量的素材。

而在生成維度（利用檢索到的上下文、處理嘈雜信息以及生成準(zhǔn)確和忠實響應(yīng)的能力），MedGPT 更是表現(xiàn)出了優(yōu)秀的性能。其上下文利用率（context utilization）為 66.3，充分體現(xiàn)了它能夠高效地整合和運用檢索到的醫(yī)療知識。

模型生成響應(yīng)中不正確聲明在相關(guān) chunk 中的噪音敏感度（noise sensitivity in relevant），MedGPT 僅為 16.4；模型生成響應(yīng)中不正確聲明在不相關(guān) chunk 中的噪音敏感度（noise sensitivity in irrelevant）為 4.5，這一數(shù)據(jù)有力地證明了 MedGPT 在處理復(fù)雜醫(yī)療信息時，具有出色的抗干擾能力，能夠有效過濾掉無關(guān)的噪音信息，專注于生成準(zhǔn)確、有價值的答案。綜合來看，MedGPT 在醫(yī)療垂直領(lǐng)域的表現(xiàn)已經(jīng)相當(dāng)突出，能夠為醫(yī)療專業(yè)人士和患者提供可靠、準(zhǔn)確的醫(yī)療知識和建議。

上述測試結(jié)果有力地證實，MedGPT 作為專注于醫(yī)療領(lǐng)域的垂直大模型，在應(yīng)對醫(yī)療專業(yè)問題時呈現(xiàn)出了優(yōu)秀的性能表現(xiàn)。以其高精準(zhǔn)度、高度可靠性以及強大的抗干擾能力，在醫(yī)療人工智能領(lǐng)域中嶄露頭角。無論是輔助醫(yī)療人員進(jìn)行病癥診斷，還是為患者提供專業(yè)的醫(yī)療咨詢服務(wù)，MedGPT無疑將會是非常理想的選擇，能夠為醫(yī)療行業(yè)的智能化進(jìn)程提供強勁的推動力。

醫(yī)聯(lián)受桂林市衛(wèi)生信息學(xué)會邀請參加人工智能應(yīng)用技術(shù)交流沙龍醫(yī)聯(lián)獲抗疫互聯(lián)網(wǎng)醫(yī)療健康服務(wù)企業(yè)殊榮

成都醫(yī)云科技有限公司

2014-2024 醫(yī)聯(lián)

蜀ICP備14021831號
 互聯(lián)網(wǎng)藥品信息服務(wù)資格證編號(川)-經(jīng)營性-2021-0058
成都醫(yī)云科技有限公司 All Rights Reserved

地址：北京市朝陽區(qū)金桐西路遠(yuǎn)洋光華國際大廈AB座22層

關(guān)于

> 走進(jìn)醫(yī)聯(lián) > 加入我們 > 聯(lián)系方式

產(chǎn)品與解決方案

> 未來醫(yī)生 > 未來醫(yī)生工作室 > AI醫(yī)療應(yīng)用平臺 > 保險行業(yè)解決方案 > 線下醫(yī)療機(jī)構(gòu)

規(guī)范說明

> 醫(yī)聯(lián)聲明

用戶服務(wù)產(chǎn)品