醫療器械臨床試驗|從診斷試驗角度看AI醫療器械軟件的臨床評價
發布日期:2020-09-28 閱讀次數:970 來源:中國食品藥品網
摘要:
隨著5G和云計算技術的逐步應用,深度學習輔助決策軟件(以下簡稱AI軟件)得到越來越廣泛的應用,特別是2020年新冠肺炎疫情暴發以來,各大優秀的互聯網企業相繼開發出輔助閱片的AI軟件,為防疫工作貢獻力量。AI軟件在影像數據的輔助評閱上有很大的應用潛力,其處理速度快、病灶識別靈敏度高,對閱片經驗不足的臨床醫生能起到很好的輔助作用,特別是在面對重大突發的公共衛生事件時,AI軟件在影像篩查上具有難以取代的優勢。
2019年7月,國家藥監局發布《深度學習輔助決策醫療器械軟件審評要點》,并于2020年8月分別批準了深圳硅基智能科技有限公司及上海鷹瞳醫療科技有限公司生產的“糖尿病視網膜病變眼底圖像輔助診斷軟件”注冊,標志著我國對AI軟件的審評和監管邁出了重要一步。然而,即使新冠疫情的出現使得AI軟件有了一定規模的探索性應用,但具有病灶定位需求的影像輔助決策軟件并未獲批。鑒于最近筆者遇到了大量關于此類AI軟件的臨床評價需求,在此與各位讀者分享一下我們對AI軟件的臨床評價思考,以供同行交流。
總體思路
根據《深度學習輔助決策醫療器械軟件審評要點》的要求,AI軟件應提交基于臨床試驗的臨床評價資料,從臨床試驗的角度出發,AI軟件的臨床試驗本質上仍然是一個診斷試驗,因此,在試驗設計上具有傳統診斷試驗的相似特征,如上述的AI軟件用于糖尿病視網膜病變的診斷,其主要指標均為靈敏度和特異度(具體可參考審評報告:CQZ1900653及CQZ1900668),而評價結果為簡單的二分類變量,即“患病”或“未患病”,試驗設計特征與傳統診斷試驗基本一致。
通過上述例子可知,若AI軟件針對的疾病不涉及病灶的定位要求(如糖網診斷只需要知道患者是否患病就足夠了),則其臨床試驗的設計較為簡單,采用傳統的診斷試驗設計即可。若AI軟件針對的疾病具有病灶的定位要求(如CT影像中的肺結節的識別及定位、內鏡影像下對息肉的識別及定位等),則其臨床試驗與傳統的診斷試驗設計將存在一定的差別,包括靈敏度的定義、ROC曲線的繪制、非完美金標準的校正等等。如何合理地評價產品的性能及臨床價值,是此類產品臨床試驗的重點與難點,本文的主題亦是討論如何評價此類AI軟件的臨床性能。
回顧性臨床試驗
是否能采用回顧性研究進行臨床試驗是大部分申請人關注的重點之一。回顧性研究是基于現有的評價數據對AI軟件的診斷性能進行評價,這種試驗設計具有實施容易、成本低廉、試驗時間短等優點,因此,回顧性研究是注冊申請人最感興趣的研究設計方式。
根據《深度學習輔助決策醫療器械軟件審評要點》的要求,對于安全級別為B、A級的中低風險軟件,回顧性研究可用作臨床預實驗或替代臨床試驗,而安全級別為C級的高風險軟件,回顧性研究可作為預實驗,為臨床試驗設計提供參考依據。對于大部分具有病灶定位要求的AI軟件(如肺結節篩查、乳腺癌診斷或結腸息肉識別等),其安全級別多為C級。因此,產品是否能進行回顧性臨床試驗應優先根據產品的風險級別進行選擇。
除法規上的考量外,在臨床試驗的方法學上,回顧性研究還將存在一些難以避免的嚴重偏倚,包括測量偏倚(如回顧性的患者影像并非采用相同或相似的拍攝參數)、臨床參考標準偏倚(如參考標準依賴患者癥狀、體征、既往手術史等資料,而這些資料均來自于臨床病歷記錄,這些記錄在實際情況中可能是不全面甚至矛盾的)、選擇偏倚(如臨床試驗僅選擇了具有金標準診斷(如組織活檢)的患者作為陽性病例,而接受了金標準診斷的病例往往是嚴重且典型的,入選人群的疾病譜與預期使用人群的疾病譜可能存在巨大的差別等。此外,采用回顧性數據還容易存在應用場景的潛在偏倚,例如研究者知道本次試驗僅是對患者結果進行重新解釋,而不是對患者進行全新的診斷,其心理負擔和責任意識不同也將影響其閱片的準確度。因此,采用回顧性研究必須有嚴格的偏倚控制措施,如采用第三方獨立評價等。
一般來說,由于回顧性研究存在諸多的固有缺陷,AI軟件不推薦采用回顧性研究的方法進行臨床評價,但回顧性研究在產品性能評價以及為臨床試驗作參考時具有重要的價值。
另外,筆者在日常工作中遇到了大量境外申請人的注冊問詢,其尤為關注是否能采用境外臨床試驗數據進行注冊申報,部分境外申請人的臨床試驗還包含了大量的亞洲人群數據(如韓國、日本、新加坡等)。關于這個問題,《深度學習輔助決策醫療器械軟件審評要點》其實有明確的說明。其中,進口軟件的研發和驗證應當優先考慮人種及流行病學特征,一般來說,臨床影像在人種上的差異可能較小,因此境外申請人應優先關注流行病學的問題。這里指的流行病學包括相關疾病的流行病特征(如發病率、不同疾病類型的分布等)、疾病診斷差別(如臨床診斷指南的差異等)、不同國家、地區的醫療水平(如影像設備的水平差別)等。對于擬采用境外數據進行申報的申請人,在提交境外數據之前應考慮上述關于流行病學差異的問題,并在提交前積極與國家藥監局溝通。
前瞻性臨床試驗
上文提到,回顧性臨床研究作為臨床試驗資料將存在諸多難以控制的試驗偏倚,因此,AI軟件的臨床試驗應優先考慮前瞻性臨床研究,尤其是對于具有病灶定位能力的AI軟件產品,這些產品的風險級別往往較高。
根據《深度學習輔助決策醫療器械軟件審評要點》的要求,AI軟件的臨床試驗應基于軟件的預期用途、使用場景和核心功能進行試驗設計。雖然不同的AI軟件針對的疾病類型各不相同,但其試驗設計和統計方法大多是類似的,因此,這里優先討論前瞻性臨床試驗中的病例選擇問題。
根據《深度學習輔助決策醫療器械軟件審評要點》,入排標準應基于目標疾病的流行病學特征,保證陽性樣本和陰性樣本選取的合理性和充分性。在實際入選患者時,結合產品的特點可選擇具有特定特征患者的樣本,例如針對肺結節識別的AI軟件,可選擇需進行肺結節篩查的高危人群(如年齡40歲以上,年吸煙史>20包/年,戒煙<5年等)。
采用該方法進行病例入選具有很好的樣本代表性,但該方法的入組時間較長,耗費成本可能較高;另一種比較折中入選病例的方法是有針對性地入選患者,由研究者根據患者的體征、癥狀等綜合判斷其是否應該接受影像檢查,例如某患者具有發熱、咳嗽、咳痰等癥狀,當研究者懷疑其有肺部疾病時,可對將其納入到某AI軟件的臨床試驗中。該入選病例的方法較有針對性,也是診斷試驗中比較流行的一種做法,但為進一步避免選擇偏倚,在實施這種入組方法時應在方案中對每一種疾病類型/嚴重程度的樣本量比例進行規定。
在評價指標方面,根據《深度學習輔助決策醫療器械軟件審評要點》的要求,原則上選擇靈敏度、特異度、ROC/AUC等作為主要評價指標。對于針對病灶定位的AI軟件,其靈敏度應在病灶水平上進行統計。當臨床試驗選擇用戶結合軟件聯合決策與用戶單獨決策進行優效對照設計時,可選用ROC/AUC作為主要評價指標。此時研究者需要在沒有AI軟件輔助的時候單獨找出影像上的病灶,并對這些病灶進行5級把握度評分(肯定不是病灶、可能不是病灶、無法確定、可能是病灶、肯定是病灶),然后再在有AI軟件輔助的情形下,重新按上述方法進行病灶評價。需要注意的是,采用此種方法進行評價時應注意閱片的隨機順序,以避免研究者的記憶偏倚,如有可能,建議可在兩次閱片之間設置一定的洗脫期。
診斷正確的定義應為在正確的位置上識別出正確的病灶。以閱片數據中對每個病灶的5級評分作為截斷值,即可建立相應的ROC曲線。常見的曲線繪制方法有定位ROC曲線法(LROC)、因變量自由的ROC曲線法(FROC)及感興趣區域的ROC曲線法(ROI-ROC)等,其中LROC法要求研究者對圖像上的某處至少一個病灶進行把握度評級,然后選出最有可能是病灶的區域,對于同一影像中的多個病灶,多出來的病灶不多加分。因此,該法比較適用于病灶數目不超過1個的情況。對于每例患者病灶數目超過1個的情況,可采用FROC進行評價,此時,曲線的縱坐標為靈敏度(正確定位的病灶比例),橫坐標為每一個個體的平均假陽性數。AI軟件的診斷準確度評價的另一種方法是ROI-ROC法,這種方法將檢測區域分為有臨床意義的ROI,如肺結節檢測時的五段肺葉,乳腺癌檢測時的左右乳房等,然后要求研究者識別并定位所有的疑似病灶,并對這些病灶進行把握度評分,然后上述評分進行ROI的映射,若真實的病灶被判定為“疑似”,則該處得分就是該ROI的得分,若真實的病灶檢測出錯(包括沒有病灶的地方被判斷為是病灶以及病灶定位出錯),則此時的ROI得分為最低的把握度。以上述ROI的不同分級為截斷值即可構建ROC曲線,然后采用3級或4級作為截斷值即可構建出相應的靈敏度及特異度指標,對AI軟件的診斷性能作出綜合的評價。
需要注意的是,在上述這些臨床試驗中,同一個患者的多個病灶檢測時存在一定的相關性,在估計靈敏度、特異度及ROC曲線時,應對這種聚類數據進行統計校正,以正確評價產品的性能。
本文對針對病灶定位類的AI軟件的臨床試驗進行了一些解釋及歸納,實際進行這些臨床試驗時,方案中應有全面的偏倚控制考慮,包括操作偏倚、評價偏倚等。臨床試驗結果的評價應優先采用第三方獨立評價的方式。同時,在統計上也應對聚類數據、不完美金標準等進行數學上的校正,以科學、合理地評價產品的臨床性能。(作者單位:廣州奧咨達醫療器械技術股份有限公司)
相關新聞

“釔”朵小紅花:尋找治愈希望 傳遞生命力量
9472個小時之前

2024 ASCO恒瑞醫藥14款創新藥共79項抗腫瘤領域研究成果登場亮相
9544個小時之前

《近視防治指南(2024年版)》明確,眼保健操、OK鏡、低濃度阿托品滴眼液可延緩近視
5月31日,國家衛生健康委印發《近視防治指南(2024年版)》,進一步提高近視防控和診療的規范化水平,推動和加強我國近視防治工作。
9544個小時之前

Molecular Cancer | 邁向癌癥治療新紀元:CAR-M療法的臨床潛力
近年來,嵌合抗原受體(CAR)技術在血液腫瘤治療中取得了顯著進展,特別是在急性淋巴細胞白血病(ALL)、淋巴瘤和漿細胞骨髓瘤(PCM)等方面。然而,CAR-T細胞療法在實體瘤治療中的效果仍不盡如人意。這促使研究人員開始探索替代性的免疫治療方法,以克服當前CAR-T細胞面臨的重大挑戰。具有強大吞噬能力、抗原呈遞功能以及能夠調節腫瘤微環境和刺激適應性反應的巨噬細胞成為一種有前景的選擇。
9544個小時之前

以標準化引領國產手術機器人產業高質量發展
隨著醫療技術的飛速發展,手術機器人作為醫用機器人領域的重要分支,憑借有效提高手術效率、降低人力成本等顯著優勢,正受到醫療器械行業越來越多的關注。為了促進手術機器人領域創新產品加速上市,提高產品質量安全水平,保障醫護人員及患者用械安全,我國藥監部門積極推進醫用手術機器人標準體系不斷完善,手術機器人標準化工作取得積極進展。
9641個小時之前