有監督或者無監督問題,是分類還是回歸問題。
使用爬蟲收集遠端監督資料,或者收集目前已有開源資料集。
對於收集來的資料進行清洗工作,比如異常值檢測(離群點檢測),可以採用聚類方法k-means,找出離群點,以及基於統計的方法如分布在正態分佈不接受的範圍內的。
將資料集分為訓練集,驗證集,測試集。
採用交叉特徵,統計特徵(有的特徵不能統計測試集和驗證集的,否則會過擬合),特徵離散化等。
將資料根據label,如果是分類問題,可以給不同標籤的點打上不同的顏色(如果特徵比較多,可以先用pca降維之後再視覺化),然後根據樣本的分布情況(比如是用線性分類邊界,還是非線性分類邊界比較好),具體確定分類演算法,線性分模擬較可以使用邏輯回歸,線性svm等,非線性分類可以用決策樹等。
用sklearn,tensorflow,xgboost,lightgbm等庫進行模型訓練(使用訓練集),同時使用驗證集檢測優化目標,防止過擬合,也可以採用交叉驗證的方式。
使用測試集測試模型效能,之後進行線上a/btest。
如果模型效能較差:
1,過擬合或者欠擬合。
2,資料是否清洗乾淨。
3,如果是過擬合可以加大模型的正則化項,l1或著l2,或者dropout等。(也可以多訓練幾個差異較大的模型,融合抑制過擬合)。
4,如果是欠擬合可以多用幾個模型,進行模型融合,或者減小正則化項,或者檢視使用的模型是否適用於當前問題。
機器學習解決問題的流程
了解場景和目標 對要解決的問題做具體分析,理解業務場景,這種場景中的常用模型。了解評估準則 最終的目標是從準確率還是召回率方向 打個比方 做為模型的評估標準認識資料 了解資料是否平衡,型別,結構,關聯關係資料預處理 清洗,調權 型別轉化,缺失值處理,標準化或者歸一化,one hot 資料本身的質量優...
解決機器學習問題的一般流程
學習更多的機器學習 深度學習的知識!很多部落格 教程中都對機器學習 深度學習的具體方法有很詳細的講解,但卻很少有人對機器學習問題的流程進行總結,而了解解決機器學習問題的一般流程對於新手而言還是非常必要的,所以本文是非常適合機器學習入門者的一篇文章,它會讓你對機器學習的整個流程有很好的理解。當我們拿到...
機器學習流程
機器學習其實就是利用現有資料,設計出演算法模型的過程。其流程如下 1 獲取資料 2 資料分析 3 設計演算法 4 測試演算法 5 驗證評估 6 提交演算法 對資料的處理分為四種情況 分類 聚類 回歸 降維。其中又以分類為主。分類思想主要分為兩種 1 利用歐式距離判定樣本屬於哪一類。2 利用概率大小進...