實戰天池精準醫療大賽之一 資料分析

2021-08-15 04:37:48 字數 1357 閱讀 3724

(1) 缺失資料

有大量的缺失值,特徵分四類,分別是B肝、血常規、肝功能、腎功能,一般的缺失值都是缺失整個類別資料(由於患者未做某項檢查)。除血常規以外,其餘三項都有大量的缺失值,尤其是B肝類檢查,多一半都是空值。 如果去掉這些資料,將會損失3/4的資料量。假設:醫生不要求做該項檢查,說明他認為該項指標基本正常,則在指標的正常範圍內取隨機值填充。

(2) 其它操作

替換去掉其中中文字元

歲數與血糖的相關性最大為0.32,甘油三酯相關性0.23,還有年齡,鹼性磷酸酶,白細胞計數等6項指標在0.15左右。

(2) pca降維:

前15個特徵約佔資訊量的99.8%

(3) 分析血糖值分布:

絕大多數分布在4-15之間,比賽前期可將此範圍之外的認為雜訊。

(1) 演算法分析

這是乙個有監督的回歸問題,此比賽基本可以定位成特徵工程加調參問題。預計先使用gbdt和隨機森林,後面整合多個模型。 因為資料少,主要注意過擬合問題,可能使用先分類後回歸的方式。注意回歸不是按正確率計算結果的,此題根據題目要求,評估指標為mse

(2) 迭代分析

左圖是迭代與誤差的關係,迭代到100次後,測試集誤差不再下降,訓練集還在下降,好像開始過擬合,當然這與我設定的學習率相關,右圖是迭代後計算的特徵權重排序。

(3) 檢視**的主要出錯位置

(1) 一般去醫院看病有問題的居多,所以相對正常值有些偏差,醫生也可能作出有傾向性的判斷。

(2) 該題可以把已有的知識和演算法融合,使用一些現成的資料,比如正常範圍。

(3) 週末檢查拿結果的可能是比較特殊的病人。

(4) 歲數分成幾段,更具代表意義。

(5) 可將資料修改為正常值,偏高,偏低,幾個層次,做分段特徵。

(6) 考慮病情比較嚴重的情況,可能需要分開處理,作為噪點先拿出來。

(7) **只是想知道被測試人是否為糖尿病,而不關注是**與實際值的微小差距,所以也可以將其處理為分類問題。

(8) 可能需要對誤差函式和評價函式做微調。

(1) 在本地測試,刪除所有缺失資料的例項,**效果好很多。

(2) 如不考慮大於10的資料,**效果好很多。

(3) 目前在特徵工程方面,只做了修改缺失值,而排序特徵,離散特徵,統計特徵都還沒做,演算法方面只使用了sklearn自帶的gbdt,其它演算法也還沒試。

資料探勘實戰之天池精準醫療大賽(5) 特徵工程1

現在開始資料探勘中最玄妙也是最重要的部分 特徵工程 feature engineering 初學機器學習,一般只是對此概念及相關內涵有所了解,此處試圖以實踐性的角度,詳細闡述特徵工程。引用一句老掉牙的話,資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。好特徵即使使用一般的模型,也...

天池精準醫療大賽 個人賽後總結(一)

一條工程狗也有自己的資料探勘夢,自己 這部分主要是如何處理缺失值的問題。特徵大概可以劃分為四大類 肝功能 腎功能 血常規 B肝 缺失資料均為整類缺失,即檢查人沒有做該部分的檢查 除了血常規意外其他三大類均有大量缺失值,尤其是B肝這一項,缺失值達到了一半以上。初步考慮 填充缺失量如此大的資料將帶來無法...

阿里天池 醫療大賽 第二季 感想

醫療影像類國內的比賽當屬這個了 參賽隊伍達到了2200多支。接下來我來談下自己在比賽中遇到的問題和一些想法。第一 在對肺實質提取的過程中 其實是乙個比較繁瑣的事。但越是精細的肺實質提取,演算法達到的瓶頸就會來的越遲。傳統的形態學操作不失為一種好方法 第二 在對輸入訓練用的分割網路。使用了 u net...