本專案基於邏輯回歸模型完成二分類問題。
本專案為sit國家級專案,由三人團隊申請,本專案申請之初,考慮醫院接診量大,決定設計乙個判別系統來判定黃疸的概率,來決定是否立馬進行全面檢查(當然這違背了先到先檢查的原理,但是重病先**,也算是人之常情吧)
問題一:資料屬性處理問題
1、對於**顏色是否變黃,這種二分類的屬性,採用1bit的啞變數0、1來對此屬性進行反映;
2、對於其中的無序多分類屬性,直接將k分類的屬性轉化為k-1個啞變數進行描述;
3、對於有序的多分類屬性,比如腹部腫脹程度的描述,通常情況下我們也常會將其賦值為1、2、3(等距)或1、2、4(等比)等形式,通過由小到大的數字關係,來體現疾病嚴重程度之間一定的等級關係。但需要注意的是,一旦賦值為上述等距或等比的數值形式,這在某種程度上是認為疾病的嚴重程度也呈現類似的等距或等比的關係。而事實上由於疾病在臨床上的複雜性,不同的嚴重程度之間並非是嚴格的等距或等比關係,因此再賦值為上述形式就顯得不太合理,此時可以將其轉化為啞變數進行量化。(初次處理為了體現腫脹程度,採取的數值處理,而在後期對比後發現,利用啞變數描述效果更加好);
4、對於連續變數,很多人認為可以直接將其帶入到回歸模型中即可,但有時我們還需要結合實際的臨床意義,對連續性變數作適當的轉換。例如年齡,以連續性變數帶入模型時,其解釋為年齡每增加一歲時對於因變數的影響。但往往年齡增加一歲,其效應是很微弱的,並沒有太大的實際意義。此時,我們可以將年齡這個連續性變數進行離散化,按照10歲乙個年齡段進行劃分,如0-10、11-20、21-30、31-40等等,將每一組賦值為1、2、3、4,此時構建模型的回歸係數就可以解釋為年齡每增加10歲時對因變數的影響。以上賦值方式是基於乙個前提,即年齡與因變數之間存在著一定的線性關係。但有時候可能會出現以下情況,例如在年齡段較低和較高的人群中,某種疾病的死亡率較高,而在中青年人群中,死亡率卻相對較低,年齡和死亡結局之間呈現乙個u字型的關係,此時再將年齡段賦值為1、2、3、4就顯得不太合理了。因此,當我們無法確定自變數和因變數之間的變化關係,將連續性自變數離散化時,可以考慮進行啞變數轉換。而在此病例中,明顯年齡帶來的影響不是線性的,因為在對資料進行處理的時候,直接使用數值型不太合適,所以採用啞變數對其進行處理。
ps:在上述多分類情況下, 對於啞變數選取,考慮k分類構造k-1個啞變數,因而基準變數的選取就會顯得格外重要,在開始,直接選取第乙個順利類別作為基準變數,這是一種沒有經過思考的選擇,而在後期的調整中,使用該屬性的正常類別作為基準參照(至少在病例判定這個專案中,表現的很好,這樣的處理也是合乎情理的)。
2、在本專案中,去檢查黃疸患病與否的,基本患病的比例很大,因而在資料中,正例的比重很大,佔到9成以上,有3k多份資料,而反例的資料很小,只有幾百份。(在初次實驗中,當時並沒有接觸過什麼資料均不均衡的問題,因而就直接用原始資料進行模型訓練了,而且效果還很好,達到了90%以上的acc,然而在一次討論中,有人指出這樣的效果是毫無意義的,這時候才重視到資料的平衡性問題。)考慮到正例的樣例3k在本專案中,資料其實勉強算足夠,初步考慮進行下取樣,對正例樣例進行隨機採取,每次獲取和負例相同的樣本大小,進行九次取樣,訓練出九個邏輯回歸模型,進行整合學習,由投票決策獲取最後的分類類別,最終達到的acc在0.8左右
3、在初次進行上取樣以後,再次進行分析,在初次進行上取樣後,每次進行模型訓練時,負例都沒有改變,感覺有點不符合抽樣原理,因而對資料再次進行處理,進行負例的資料生成:
3.1 對每個負例樣本進行樣本合成,利用knn,選取k大小為5,在其中隨機抽取乙個樣本為基礎,
生成新樣本,在這種情況下,使得正例樣本數都達到3k,在從中各個類別中抽取1k進行模型訓練,進行bagging學習,在acc 0.8左右提高到了0.82.雖然有一定的提高,但是總感覺不太令人滿意。
3.2 繼續思考樣本生成的問題,上述樣本生成為每個負例樣本都生成了新樣本,這帶來一些潛在的問題:一方面是增加了類之間重疊的可能性,另一方面是生成一些沒有提供有益資訊的樣本。為了解決這個問題,對svm模型進行思考,在svm模型中,對決策平面起到決定性作用的,是幾何間距最小的向量,我們稱之為支援向量,那對照這樣的思考,是不是在邊緣附近生成的樣本更具有代表性呢?因而基於這樣的思想,只為那些k近鄰中有一半以上大眾樣本的小眾樣本生成新樣本。直觀地講,只為那些周圍大部分是大眾樣本的小眾樣本生成新樣本,因為這些樣本往往是邊界樣本。確定了為哪些小眾樣本生成新樣本後,在按照上述樣本生成新樣本。在此基礎上,進行整合學習,最後acc達到了0.88左右,至此,本專案結束,改不動了。
天津新生兒登記戶口
業務指南新生嬰兒出生後一年內,由父 母或監護人憑嬰兒 出生醫學證明 父或母居民戶口簿 居民身份證辦理。出生超過一年 年齡未滿16周歲申報出生登記 由父 母提交申請,並提交嬰兒 出生醫學證明 父 母居民戶口簿 居民身份證 持補發的 出生醫學證明 申報戶口登記。1996年1月1日以前出生的,提供出生醫院...
如何辦理新生兒戶口?
上海愛孕指南 孕期問答 如何辦理新生兒戶口?2008 08 11 本資訊由丫丫網編輯整理,並受法律保護。除非正文中另有宣告,沒有丫丫網許可任何人和組織不得使用任何內容。新手媽咪之新生兒戶口 提供!q 上海新生兒戶口要去 辦理?a 新生兒戶口要去公安派出所辦理。q 新生兒戶口辦理有期限嗎?a 新生嬰兒...
新生兒戶口辦理總結
先到出生醫院辦理出生證明,在辦理出生證明之前最好跟醫生聯絡一下,看看是否有空。否則將白跑一趟。還有很多醫院工作時間不固定,經常要在上午進行查房。一般以10點到10點半為最佳辦理時間。在辦理出生證明是需要注意幾個細小的問題 1 小孩是否在當地的戶口。2 小孩跟誰姓。3 攜帶好本人和配偶的身份證 4 如...