召回率f1值
p-r曲線
roc曲線
auc對數損失
多分類錯誤率
平均絕對百分誤差mapr
均分根誤差rmse
清洗爬蟲資料
過濾無效**樣本
取樣方法:
下取樣整體取樣
分層取樣
根據選擇樣本的策略進行分類
根據選擇的樣本進行分類
分層k折交叉驗證(stratified k-fold)
資料和特徵決定了機器學習演算法的上限,而模型和演算法只是不斷逼近這個上限而已.
二值化分桶
分位數分桶:如果數值變數的取值存在很大間隔時,有些桶裡沒有資料,可以基於資料的分布進行分桶,例如利用聚類將特徵分為多個類別.
縮放缺失值處理
特徵交叉
非線性編碼
行統計量
獨熱編碼
分層編碼
雜湊編碼
計數編碼
計數排名編碼
目標編碼
類別特徵之間交叉組合
類別特徵和數值特徵之間交叉組合
兩個時間變數之間
時間序列相關的特徵
基於滑動視窗統計特徵
計算兩個位置之間的距離
語料構建
文字清洗
分詞詞形還原和詞幹提取
文字統計特徵
n-gram模型
skip-gram模型
詞袋模型
tf-idf
余弦相似度
jaccard相似度
levenshtein(編輯距離)
隱性語義分析
word2vec
驗證過程
2.4.1過濾法
皮爾森相關係數
fisher得分
假設檢驗
特徵變數=連續變數,目標變數=連續變數
互資訊(或kl散度/相對熵)
由於單變數過濾方法只考慮了單特徵變數與目標變數之間的相關性,因此選擇的特徵子集可能過於冗餘.
多變數qpfs
spec
相關特徵選擇(cfs)
cfs、mbf、fcbf
工具包資料量大
由於過濾方法與具體的機器學習演算法獨立,因此過濾方法沒有考慮選擇的特徵集合在具體機器學習演算法上的效果.封裝方法直接使用機器學習演算法評估特徵子集的效果,它可以檢測出兩個或多個特徵之間的互動關係,而且選擇的特徵子集讓模型的效果達到最優.
2.4.2封裝方法
分支定界搜尋
非窮舉最優優先搜尋
啟發式搜尋
序列向後選擇
雙向搜尋
增l去r
序列浮動選擇
隨機搜尋
過濾方法與機器學習演算法相互獨立,而且不需要交叉驗證,計算效率比較高,但是過濾演算法沒有考慮機器學習演算法的特點;封裝方法使用預先定義的機器學習演算法來評估特徵子集的質量,需要很多次訓練模型,計算效率很低;嵌入方法則將特徵選擇嵌入到模型的構建過程中,具有封裝方法與機器學習演算法相結合的優點,而且具有過濾方法計算效率高的優點,是實際應用中最常用的方法.
2.4.3嵌入方法
svm工具包
傳統機器學習:
深度學習:
傳統機器學習:
深度學習:
分類問題
代表方法
extree
gbdt
lightgbm
catboost
乙個完整機器學習專案流程總結
現在機器學習應用越來越流行,了解機器學習專案的流程,能幫助我們更好的使用機器學習工具來處理實際問題。1理解實際問題,抽象為機器學習能處理的數學問題 理解實際業務場景問題是機器學習的第一步。機器學習的特徵工程和模型訓練通常都是一件非常耗時的過程,胡亂嘗試時間成本是非常高的。深入理解要處理的問題,能避免...
乙個完整的機器學習專案在Python中的演練(二)
資料清洗與格式處理 探索性資料分析 特徵工程和特徵選取 機器學習模型效能指標評估 微調最佳模型 超引數 在測試集上評估最佳模型 解釋模型結果 總結分析 通過完成所有流程,我們將看到每個步驟之間是怎麼聯絡起來的,以及如何在python中專門實現每個部分。該專案可在github上可以找到,附實現過程。第...
乙個完整的健身方案
乙個完全的健身方案應當包含吃 飲食 練 訓練 睡 睡眠 三個方面,而練則由心肺,力量,柔韌三個主要部分組成。有鑑於此,本人給出的訓練計畫是 開始時用5 10分鐘有氧熱身,最後用5 10分鐘拉伸放鬆,中間是40 50分鐘的力量訓練。力量訓練主要有 1 背部 引體向上 頸前下拉 2 胸部 平板臥推 坐姿...