Datawhale 資料探勘 第一次打卡

2021-10-22 10:45:07 字數 2567 閱讀 7447

題目理解:

混淆矩陣(confuse matrix)

用「t」「f"「p」"n"來判斷結果

第乙個字母t/f,表示**的正確與否;第二個字母p/n,表示**的結果為正例或者負例。如tp就表示**對了,**的結果是正例,那它的意思就是把正例**為了正例

準確率(accuracy)準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況,醫療資料大部分都是樣本不均衡資料。

a cc

urac

y=co

rrec

ttot

alac

cura

cy=t

p+tn

tp+t

n+fp

+f

naccuracy=\frac\ accuracy = \frac

accura

cy=t

otal

corr

ect​

accu

racy

=tp+

tn+f

p+fn

tp+t

n​精確率(precision)也叫查準率簡寫為p

精確率(precision)是針對**結果而言的,其含義是在被所有**為正的樣本中實際為正樣本的概率在被所有**為正的樣本中實際為正樣本的概率,精確率和準確率看上去有些類似,但是是兩個完全不同的概念。精確率代表對正樣本結果中的**準確程度,準確率則代表整體的**準確程度,包括正樣本和負樣本。

p re

cisi

on=t

ptp+

fp

precision = \frac

precis

ion=

tp+f

ptp​

召回率(recall) 也叫查全率 簡寫為r

召回率(recall)是針對原樣本而言的,其含義是在實際為正的樣本中被**為正樣本的概率。

r ec

all=

tptp

+f

nrecall = \frac

recall

=tp+

fntp

巨集查準率(macro-p)

計算每個樣本的精確率然後求平均值

m ac

rop=

1n∑1

np

i}}\limits_}^}}\nolimits_}}}}

macrop

=n1​

1∑n​

pi​巨集查全率(macro-r)

計算每個樣本的召回率然後求平均值

m ac

ror=

1n∑1

nr

i}}\limits_}^}}\nolimits_}}}}

macror

=n1​

1∑n​

ri​巨集f1(macro-f1)

m ac

rof1

=2×m

acro

p×ma

cror

macr

op+m

acro

r}}}

macrof

1=ma

crop

+mac

ror2

×mac

rop×

macr

or​與上面的巨集不同,微查準查全,先將多個混淆矩陣的tp,fp,tn,fn對應位置求平均,然後按照p和r的公式求得micro-p和micro-r,最後根據micro-p和micro-r求得micro-f1

微查準率(micro-p)

m ic

rop=

tp‾t

p‾×f

p‾

}} \times \overline}}}

microp

=tp×

fptp

微查全率(micro-r)

m ic

ror=

tp‾t

p‾×f

n‾

}} \times \overline}}}

micror

=tp×

fntp

微f1(micro-f1)

m ic

rof1

=2×m

icro

p×mi

cror

micr

op+m

icro

r}}}

microf

1=mi

crop

+mic

ror2

×mic

rop×

micr

or​baseline還是沒跑完,啊啊啊啊啊

datawhale資料探勘任務六

通過之前的部落格可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是lr。至於融合,用的是隨機森林和邏輯回歸進行融合。為 任務六 使用stacking進行模型融合 構建 stacking 模型,用之前表現較好的lr和隨機森林進行模型融合 s clf stackingclas...

datawhale資料探勘課程 任務二

特徵衍生 在實際工作中,自己用到的是特徵公升維,即one hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡 收入區間成為乙個新特徵,但是在金融行業一般不這麼做 因為可解釋性差容易不符合監管要求。計算iv函式。在機器學習的二分類問題中,iv值 information value 主...

DataWhale 資料探勘 Task2

import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...