資料分析 6 效能評價與演算法基礎

2021-08-13 03:05:02 字數 749 閱讀 4575

非均衡分類問題

在大多數情況下不同類別的分類代價並不相等。

正確率、召回率及roc曲線

tp——將正類**為正類數;fn——將正類**為負類數;fp——將負類**為正類數;tn——將負類**為負類數。

正確率(precision),它等於p = tp/(tp十fp),給出的是**為正例的樣本中的真正正例的比例。

召回率(recall),它等於r = tp/(tp+fn),給出的是**為正例的真實正例佔所有真實正例的比例。

f1值,它等於f1 = 2pr/(p+r),是正確率和召回率的調和均值。

基於代價函式的分類器決策控制:tp*(-5)+fn*1+fp*50+tn*0

抽樣

欠抽樣(undersampling): 意味著刪除樣例

過抽樣(oversampling): 意味著複製樣例(重複使用)

lp距離

資料分析 建模評價

模型搭建 模型評估 1 模型搭建 處理後的資料就是建模資料,下一步是選擇合適模型。模型選擇之前需要知道資料集最終是進行監督學習還是無監督學習。模型的選擇一方面是通過我們的任務來決定的,另一方面可以根據資料樣本量以及特徵的稀疏性來決定,開始嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他...

資料分析基礎

import numpy as npimport pandas aspd import scipy import matplotlib.pyplot asplt 資料匯入 df pd.read csv r encoding gbk print df.head 前五行 print df.tail 最後...

Python資料分析 6

3.資料處理 清洗 f open 商鋪資料.csv if 條 in s return int s.split 0 else return 缺失資料 def fprice s if in s return float s.split 1 else return 缺失資料 def fcommentl s...