分類:將例項資料劃分到合適的分類中
回歸:通過給定資料點擬合最有曲線從而**數值型資料
以上兩個任務都屬於監督學習,因為這類演算法必須知道**什麼,即目標變數的分類資訊或目標數值。
無監督學習:資料沒有類別資訊,也不會給出目標值
聚類:將資料集分成由類似的物件組成的多個類的過程
密度估計:將尋找描述資料統計值的過程
降維:減少資料特徵的維度,更加直觀的視覺化資訊
分析使用機器學習演算法的目的是什麼,即想要完成何種任務?
如果想要**目標變數的值,則可以選擇監督學習演算法,確定選擇監督學習演算法後,需要進一步確定目標變數的取值型別,如果目標變數是離散取值,則可以採用分類演算法,若是連續型取值則需要選擇回歸演算法。
如果不想知道目標變數的值,則可以選擇無監督學習演算法,進一步分析是否需要將資料劃分為離散的組,若這是唯一需求,則選擇聚類演算法;如果還需要估計資料與每個分組的相似程度,則需要使用密度估計演算法。
需要分析或收集的資料是什麼?
特徵值是離散型還是連續型?是否存在缺失的值?何種原因造成的缺失,資料中是否存在異常值,某個特徵發生的頻率如何等等
C 學習筆記 CH1 進入C 程式設計
1.6.4 格式化字串 1.6.5 多重標記和值 總結步驟 1 建立c 控制台程式 2 執行 3 檢視控制台輸出 程式分析 標示符是一種字串,用來命名如變數 方法 引數和許多後面要講解的程式結構 識別符號不能和關鍵字重複 規則 1 字母 下劃線 可以用在任何位置 2 數字不能放在首位 3 字元只能放...
解題報告 ch1 大數問題
424 integer inquiry 1.大數加法 兩個數a,b相加,需要記錄進製g,result的每一位 等於 a與b對應位相加再加上g 10106 product 1.大數乘法 a,b相乘 result 的位數 等於 a.len b.len 最後去除字首0 result.s i j a.s i...
ch1 資料結構篇 雜湊表
1.自然語言描述 又稱雜湊表,關鍵字本身與其在表中的位置有關係,用雜湊函式來確定關鍵字的位置。雜湊表的關鍵是處理位址衝突,教科書中給出了幾種雜湊方法,這裡用最簡單的線性探查來處理衝突。字串雜湊是將兩個字串轉換成兩個唯一整數,這裡是字串字首雜湊法 將字串看作乙個p進製的數,然後將每一位儲存在雜湊表中。...