機器學習實踐一般流程(監督學習)

2021-08-21 12:40:22 字數 357 閱讀 8461

觀察資料集,正負樣本是否均衡(看正負樣本資料量是否差別過大)

不均衡:under sample(隨機取樣)或者over sample(利用imblearn中的smote演算法)

觀察缺失值,進行補全,要是標籤缺失,直接drop

資料歸一化處理

觀察可以合併的資料集,將多個特徵變為乙個(例如特徵裡有公分和英呎)

離散資料進行one-hot編碼

觀察資料之間的聯絡,自己造有用的特徵

將多餘的特徵清除,新造的特徵拼接到一起

將資料分為訓練集和測試集

選擇合適模型

通過交叉驗證選擇模型所需的合適引數

選擇合適的評測標準進行評測(recall、精度等)

機器學習 監督學習(一)

2.1由例項學習類 類學習 尋找乙個涵蓋所有的正例而不涵蓋任何負例的描述 類識別器的蔬菜如 對識別結果有關鍵影響的特徵 假設類 h 最特殊假設 s覆蓋所有正例且不包含所有負例的最小矩形 最一般假設 g覆蓋所有正例且不包含所有負例的最大矩形 介於s g之間的h均為無誤差的有效假設,與訓練集 相容,這些...

機器學習筆記 監督學習,無監督學習,半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...

機器學習日記 監督學習 無監督學習

監督學習是指 利用一組已知類別的樣本調整 分類器的 引數,使其達到所要求效能的過程,也稱為 監督訓練或有教師學習。無監督學習 現實生活中常常會有這樣的問題 缺乏足夠的 先驗知識 因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類...