外科手術(shù)流程解析是計算機輔助外科干預系統(tǒng)實現(xiàn)智能環(huán)境感知的核心任務,可以提高手術(shù)的安全性,降低手術(shù)并發(fā)癥。從圖像中精確識別<手術(shù)器械—手術(shù)動作—手術(shù)目標>的手術(shù)動作三元組是外科手術(shù)流程細粒度解析的關(guān)鍵。
在腹腔鏡手術(shù)視頻中,一幀畫面可能出現(xiàn)多個三元組,例如<抓夾,夾持,膽囊>, <鉤子,離斷,膽囊>。這些三元組具有時間依賴性,并且不同三元組之間的相似度高,給深度學習模型的識別造成了極大的困難。
近日,中國科學院深圳先進技術(shù)研究院醫(yī)工所醫(yī)學人工智能研究中心針對手術(shù)動作三元組識別問題,提出了一種多任務細粒度時空網(wǎng)絡模型,實現(xiàn)了對腹腔鏡膽囊切除手術(shù)視頻的動作三元組有效識別,達到了當前最優(yōu)性能。研究成果以MT-FiST: A Multi-Task Fine-grained Spatial-Temporal Framework for Surgical Action Triplet Recognition為題,發(fā)表在生物醫(yī)學工程領(lǐng)域著名期刊IEEE Journal of Biomedical and Health Informatics(中科院1區(qū),SCI IF=7.7)。碩士研究生李語翀、夏彤為共同第一作者,賈富倉研究員為通訊作者。
在手術(shù)動作三元組中,每個任務中子類的相似度很高。如圖1(a)所示,以手術(shù)器械為例,手術(shù)器械的識別依賴于器械尖端和手柄的綜合分析。有一些器械尖端相似,例如抓取器和雙極手術(shù)鉗尖端都包含一個橢圓形的圓環(huán),而其他器械可能都有灰黑色的手柄。此外,手術(shù)動作的識別需要考慮一個視頻片段內(nèi)的上下文內(nèi)容。如圖1(b)所示,某一幀的手術(shù)動作可能出現(xiàn)在圖像的邊角,而在之前的畫面中可能會有完整清晰的時序線索。
研究團隊提出了一種多任務細粒度時空網(wǎng)絡模型,包括手術(shù)三元組識別的多任務時空框架,多標簽細粒度損失函數(shù)。在多任務框架中,提出的模型綜合考慮了手術(shù)視頻中的時間特征和空間特征,而之前的方法大多只使用了空間特征。多標簽細粒度損失函數(shù)能夠使得網(wǎng)絡特征具有代表性,并且關(guān)注到圖像中的不同區(qū)域,從而提高特征的區(qū)分性和多樣性。
經(jīng)腹腔鏡膽囊切除術(shù)視頻圖像測試,研發(fā)的模型在器械,動作,器官識別任務上達到了82.1%,51.5%和45.5%的平均精度,超越了Triplet,Attention Triplet和Rendezvous等當前先進方法。與Rendezvous方法相比,模型精度分別提高了4.6%,4.0%,7.8%。在三元組整體識別任務上,研發(fā)的模型也提高了3.1%的平均精度,達到了35.8%。研發(fā)團隊通過消融實驗證明了不同模塊的有效性。
該工作得到了國家自然科學基金,科技部重點研發(fā)計劃、廣東省自然科學基金、深圳市基礎(chǔ)研究重點項目等資助。
圖1. 手術(shù)動作三元組識別的兩個特點
?。╝)手術(shù)動作三元組由手術(shù)器械、手術(shù)動作、手術(shù)目標三個任務組成,每個任務中的子類具有相似的外觀特征。
(b)時間上下文在三元組識別中起到了重要的作用。
圖2. 提出的多任務細粒度時空網(wǎng)絡模型
圖3. 與先進方法比較
附件下載: