非均衡分類問題
在大多數情況下不同類別的分類代價並不相等。
正確率、召回率及roc曲線
tp——將正類**為正類數;fn——將正類**為負類數;fp——將負類**為正類數;tn——將負類**為負類數。
正確率(precision),它等於p = tp/(tp十fp),給出的是**為正例的樣本中的真正正例的比例。
召回率(recall),它等於r = tp/(tp+fn),給出的是**為正例的真實正例佔所有真實正例的比例。
f1值,它等於f1 = 2pr/(p+r),是正確率和召回率的調和均值。
基於代價函式的分類器決策控制:tp*(-5)+fn*1+fp*50+tn*0
抽樣
欠抽樣(undersampling): 意味著刪除樣例
過抽樣(oversampling): 意味著複製樣例(重複使用)
lp距離
資料分析 建模評價
模型搭建 模型評估 1 模型搭建 處理後的資料就是建模資料,下一步是選擇合適模型。模型選擇之前需要知道資料集最終是進行監督學習還是無監督學習。模型的選擇一方面是通過我們的任務來決定的,另一方面可以根據資料樣本量以及特徵的稀疏性來決定,開始嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他...
資料分析基礎
import numpy as npimport pandas aspd import scipy import matplotlib.pyplot asplt 資料匯入 df pd.read csv r encoding gbk print df.head 前五行 print df.tail 最後...
Python資料分析 6
3.資料處理 清洗 f open 商鋪資料.csv if 條 in s return int s.split 0 else return 缺失資料 def fprice s if in s return float s.split 1 else return 缺失資料 def fcommentl s...