LUNA16肺結節檢測資料集介紹

2021-10-12 12:39:18 字數 1271 閱讀 3956

1. luna資料集的由來

luna16資料集是最大公開肺結節資料集lidc-idri的子集,lidc-idri資料集包括1018個低劑量的肺部ct影像。在lidc-idri資料集中,有三種區域會標註出來,直徑》3mm的結節,直徑<3mm的結節以及非結節(但是肺部畸變區域),回到luna16,在888張ct中,共有36378個結節被標出(lidc-idri標註的)。

從lidc-idri到luna16資料篩選過程:

(1)將直徑》3mm的結節篩選出來,其它的不用,既不作為正樣本也不作為負樣本,所以如果你的演算法檢測出這些區域,不會處理為false positive,當然更不是true positive,直接無視之,此時還有5765個結節;

(2)將相近的結節融合,融合後還有2290個結節;

(3)將三個以上專家標註的結節作為檢測使用,共有1186個結節,也就是最後的實驗資料。

luna16資料集包括888低劑量肺部ct影像(mhd格式)資料,每個影像包含一系列胸腔的多個軸向切片。每個影像包含的切片數量會隨著掃瞄機器、掃瞄層厚和患者的不同而有差異。原始影象為三維影象。每個影象包含一系列胸腔的多個軸向切片。這個三維影象由不同數量的二維影象組成。

2. 資料集檔案內容

3. luna16競賽規則

比賽共有兩項,乙個是complete nodule detection,另乙個是false positive reduction,前者要求實現乙個完整的檢測系統,後者要求對給定區域進行二分類,是否為結節。

整個資料集是十份的,每份ct數相等,針對該資料集要執行10折交叉驗證,總共可以分為四步

(1)取乙份做測試集,其餘九份做訓練集

(2)在訓練集上訓練演算法

(3)在測試集上測試,並生成結果檔案

(4)完成10折交叉驗證後,將所有結果融合為乙份

最終提交檔案要求為.csv格式,每行為乙個標註,具體格式就是 image identifier,x,y,z,score,其中第乙個代表某個ct,x,y,z為結節座標,score為置信度。

如果提交的座標位於結節半徑範圍內,則為正,也就是true positive,如果有多個候選區都與乙個結節相關,則選取置信度最高的。若候選區檢測出irrelevant nodules,則忽略掉,既不是正也不是負,剩下的候選區都可以歸為false positive了。

有了正負樣本的定義,就要進行評估,luna16採用的是froc(free-response receiver operating characteristic)準則。最終的評比準則是0.125,0.25,0.5,1,2,4,8七個點召回率的平均值。

LUNA16資料集肺結節顯示親測

ps主要是基於該博主 的luna16資料集系列上的親測為更加小白的我一樣。博主的方法可行但是有些還有補全才能出結果,希望對你有幫助。1.資料集太大了我就上傳我用的這個序列 import itk as sitk import matplotlib.pyplot as plt import numpy ...

關於肺結節和肺腫瘤檢測分割

今天給老師匯報工作,導師問了我幾個問題,我表示很疑惑,分享一下,可能是我不對,但是我並沒有覺得我不對。前提 已有肺結節檢測工作,目前我正在做肺腫瘤分割工作。關於肺結節智慧型檢測。導師說,為什麼不用肺結節檢測的工作去檢測你分割要的用腫瘤,在此基礎上進行分割。我很不清楚為什麼要這麼做,我的疑問,首先,我...

肺結節圓形邊界光滑 肺結節良惡性的六大鑑別要點

近年來,隨著檢查儀器的精度提高和大眾健康體檢意識的普及,越來越多的肺部結節被發現。作為臨床一線的胸外科醫生,最直觀的感受是,前些年在門診差不多一周才能見到幾個肺結節,到如今已經佔門診就診患者的很大比例。有人體檢發現肺部有結節後,情緒異常緊張,寢食不安,不加區別地要求醫生為其切除。有一部分患者,雖然在...