&

央廣網北京11月7日消息（記者阮修星）11月7日，北京市衛生健康委發布《關于開展醫療領域人工智能應用評測工作的通知》，正式向各企業、研究機構提供評測服務，這標志著北京的國家人工智能應用中試基地（醫療領域）對外服務能力正持續拓展和深化。

隨著近年來人工智能技術的飛速進步，醫療AI正在加速向輔助醫生，承擔部分醫生技術勞動的方向發展。如何堅持科技為民、科技向善，確保醫療AI應用的規范安全有效，成為公眾關注和行業關心的問題。北京市衛生健康委在國家基地建設中專門設立醫療人工智能應用評測中心（以下簡稱“評測中心”），旨在建立醫療AI評測的制度體系與規范標準，依托首都高水平醫院和專家隊伍、高質量醫療數據，驗證醫療AI的臨床輔助決策能力和效果，筑牢醫療人工智能應用安全底線，同時助力醫療人工智能產品迭代優化。

由于醫療行為關乎公眾生命健康，醫療AI的評測必須堅持高標準、嚴要求，至少具有以下三個方面的要求：

一是評測內容的全面性。醫療人工智能應用不僅要看“準確率”指標，從患者角度來說，還需要考慮到倫理和信息安全；從醫生角度來說，除了準確的結果，更關注推理過程，也就是“為什么得出這個結論”。所以醫療人工智能應用要從“安全（合規倫理）、專業（醫學知識）、實用（流程適配）”等多個角度進行評測。

二是評測數據的權威性。醫療領域的人工智能應用評測要用“真案例、真標準”，要用臨床上真實的、有明確診療方案，甚至是一些罕見、疑難案例，還要參考國內外最新的診療指南去評測，才能區分出人工智能應用在嚴肅醫療場景下的真實差異。

三是評測結果的科學性。對醫療人工智能應用的評測，不能只看答案，還要對它的思考和答題過程進行評價，防止“蒙”對了結果，邏輯卻錯了。

針對上述這幾個醫療領域人工智能應用評測的重點難點問題，北京市衛生健康委委托北京市衛生健康大數據與政策研究中心，配合醫療領域國家人工智能應用中試基地建設，聯合全國重點醫院與頂尖專家團隊，拿出破題方案，打造北京醫療人工智能應用評測中心。

在評測內容上，評測中心專門建立了一套多維度考核標準，從百姓和醫生最關心的角度出發，形成6個核心維度（醫學合規倫理、醫學循證與知識、通用輔助能力、專科診療質控管理、診療流程適配性、診療決策準確性）的評測指標體系，包含70多項具體評測任務，全面覆蓋看“安全”，查有沒有泄露隱私、有沒有違背醫學倫理；看“專業”，測會不會用最新的醫學教材、診療指南；看“適用”，查是否符合醫生的思考邏輯和日常工作流程；看“準確”，看AI診斷對不對，給的治療建議合不合理。

在評測數據上，評測中心聯合重點醫院、科研機構及權威專家團隊，用臨床案例、國內外權威醫學教材和最新臨床診療指南，共同構建高質量評測數據集。權威醫學教材確保基礎知識扎實，臨床診療指南保證與臨床實踐同步，典型案例覆蓋常見病、罕見病及疑難病。“考題”由國內頂級專科高年資醫師全程深度參與編撰與審核而成，確保評測的科學性和權威性。

在評測方法上，評測中心嚴格實施用戶申請、系統評測、專家復核三個環節，系統根據應用類型自動匹配評測任務并生成評測報告，由臨床專家進行復核。在計分方式上，除采用國際通用基礎評測指標外，評測中心還創新引入基于人工智能的評分機制，也就是用一個“裁判模型”來判卷，綜合“考生”的診療思路、推理邏輯、答題結果進行量化打分，避免只看最終結果的片面性。比如兩款人工智能應用都診斷對了，評測系統會給推理邏輯更嚴謹、依據更充分的那款打更高分，確保評測結果客觀公正、科學可信。

《通知》中還提到，本次評測服務是醫療領域國家人工智能應用中試基地首次提供對外評測服務，主要聚焦胸外科診療領域開展專項評測。評測結果將根據參評單位意愿適時公布，評測表現優秀的應用將優先納入國家人工智能應用中試基地推廣渠道，向各級醫療機構重點推薦。后續，評測中心將陸續開展更多醫學領域的評測服務，覆蓋內科、外科、兒科等專業領域，助力醫療人工智能產業健康發展，更好地服務人民群眾健康需求。

編輯:朱冠安

熱榜