摘要: 利用基於規則的nlp系統讓機器"讀懂"放射學報告,準確率比基於機器學習的nlp系統要高。
在qure,我們建立了深度學習模型來檢測放射影像中的異常。這些模型需要大量的標記資料來學習診斷異常。因此,我們從醫院和門診放射中心收集了乙個大型資料集。這些資料集包含相關的臨床放射學報告。
目前,當我們訓練深度學習演算法以識別放射學影象的異常情況時,我們使用放射科的醫師報告作為最佳標準。這是目前最好的方式,因為這可以提供以百萬計的影象以實現高精度的分類演算法。
這些報告通常以自由格式文字而不是結構化格式編寫。所以,為了從這些非結構化報告中自動提取結果,我們設計了乙個基於規則的自然語言處理(nlp)系統。如下所示:
這是一篇簡短的放射學報告,從中我們可以提取如下結果:
為什麼是基於規則的nlp系統?
基於規則的nlp系統可以解析無組織內容並對其進行組織。另一方面,基於機器學習(ml)的nlp系統則在大型資料集上訓練時自動生成規則。
與基於ml的方法相比,基於規則的nlp系統具有多重優勢:
1.臨床知識可以手動合併到基於規則的nlp系統中。然而,在基於ml的nlp系統中捕獲這些知識,需要大量的注釋。
2.基於ml的nlp系統自動生成的規則難以解釋。
3.基於規則的nlp系統可以容易地新增或修改,以適應系統中新目標的發現。4.以往的臨床報告分析報告表明,基於ml的nlp系統的結果不如基於規則的nlp系統。
基於規則的nlp開發
由於從多個中心收集了報告,因此有多個報告標準。因此,我們在手動讀取大量報告後構建了一組規則來捕獲這些變化。其中,我舉兩種常見的規則型別例子:
1.發現檢測
在報告中,同樣的發現可以用幾種不同的格式來記錄,這些包括同義詞的定義。例如,blunted cp angle可以通過以下任一方式表示:
1.cp angle is obliterated
2.hazy costophrenic angles
3.obscured cp angle
4.effusion/thickening
我們收集了可用於報告調查結果的所有措辭,並為每項調查結果制定了一條規則。以下是blunted cp angle的規則。
((angle & (blunt | obscur | oblitera | haz | opaci)) | (effusio & thicken))
如果在乙個句子中有angle 、blunted、effusion和thickening 或其同義詞,則該句子將滿足這個規則。
另外,研究結果可以有乙個層次結構。例如,如有任何像edema, groundglass, consolidation等其他近似blunted cp angle的病理情況都可以被認為滿足規則。因此,我們還建立了乙個關於處理這個層次結構的規則。
2.否定檢測
上述規則用於檢測報告中的發現。但這些不足以理解報告。例如,考慮以下句子:
1. intracerebral hemorrhage is absent.
2. contusions are ruled out.
3. no evidence of intracranial hemorrhages in the brain.
雖然intracerebral hemorrhage, contusion 和intracranial hemorrhage等詞語都是在上述句子中提到的。但是它們是不確定的,實際上應該不滿足上述我們提到的規則,可是由於存在相應的關鍵字,會造成干擾。因此,除了發現之外,我們還需要否定一些句子。
我們手動讀取幾個表示否定的句子,並根據它們的結構對這些句子進行分組。檢測否定的規則是基於這些句子建立的。其中乙個如下所示:
我們可以看到上述例子的第一句和第二句與這條規則相符,因此我們可以推斷出這些句子是否定的。
intracerebral hemorrhage is absent ⟶ intracerebral hemorrhage negative.
contusions are ruled out ⟶ contusion negative.
結果:我們在乙個資料集上測試了我們的演算法, 其中包含1878份頭部 ct 掃瞄的臨床放射學報告。我們手動閱讀所有的報告用來創造最佳標準。我們用靈敏度和特異性作為評價指標。所得結果如下表所示。
在本文中,作者使用基於ml的nlp模型來提取頭部ct臨床放射學報告的結果。他們報告的平均敏感度和平均特異度分別為0.9025和0.9172。在評估的目標結果相同的情況下,我們使用基於規則的nlp演算法,報告的平均敏感度和平均特異度分別為0.9841和0.9956。因此,我們可以總結基於規則的nlp演算法在臨床報告上比基於ml的nlp演算法表現更好。
讓機器「讀懂」放射學報告
摘要 利用基於規則的nlp系統讓機器 讀懂 放射學報告,準確率比基於機器學習的nlp系統要高。在qure,我們建立了深度學習模型來檢測放射影像中的異常。這些模型需要大量的標記資料來學習診斷異常。因此,我們從醫院和門診放射中心收集了乙個大型資料集。這些資料集包含相關的臨床放射學報告。目前,當我們訓練深...
你願意讓遊戲讀懂你的心嗎?
正在未來,穿戴褻服褲玩電子遊戲將再也不是乙個可取的行為,因為遊戲責任室大約能窺測到你 赤身的 雄姿 跟著軟體技術的生長,遊戲和玩家之間的干係將會變得愈來愈親密。然而,這類 親密 的方式不必定可以得到你的認同。正在月初的時辰,fast company 關於乙個名為 affective 的麻省理工學院 ...
一文讀懂什麼是機器學習 1 機器學習是什麼
一文讀懂什麼是機器學習 1.機器學習是什麼?一文讀懂什麼是機器學習 2.機器學習的範圍?一文讀懂什麼是機器學習 3.機器學習的方法?一文讀懂什麼是機器學習 4.機器學習的應用及其子類?圖1 機器學習界的執牛耳和網際網路界大鱷的聯姻 這三位都是目前業界炙手可熱的大牛,被網際網路界大鱷求賢若渴的聘請,足...