簡介
k-近鄰法是一種基本分類與回歸方法。基本原理為:存在乙個已知資料集,每個資料集都存在標籤,輸入沒有標籤的新資料後,將新的資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本最相似資料(最近鄰)的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k-近鄰演算法中k的出處,通常k是不大於20的整數。最後,選擇k個最相似資料**現次數最多的分類,作為新資料的分類。
基本步驟
計算已知類別資料集中的點與當前點之間的距離;
按照距離遞增次序排序;
選取與當前點距離最小的k個點;
確定前k個點所在類別的出現頻率;
返回前k個點所出現頻率最高的類別作為當前點的**分類。
簡介決策樹(decision tree)是一種基本的分類與回歸方法。把決策樹看成乙個if-then規則的集合,將決策樹轉換成if-then規則的過程是這樣的:由決策樹的根結點(root node)到葉結點(leaf node)的每一條路徑構建一條規則;路徑上內部結點的特徵對應著規則的條件,而葉結點的類對應著規則的結論。決策樹的路徑或其對應的if-then規則集合具有乙個重要的性質:互斥並且完備。
過程收集資料:可以使用任何方法。比如想構建乙個相親系統,我們可以從媒婆那裡,或者通過參訪相親物件獲取資料。根據他們考慮的因素和最終的選擇結果,就可以得到一些供我們利用的資料了。
分析資料:可以使用任何方法,決策樹構造完成之後,我們可以檢查決策樹圖形是否符合預期。
訓練演算法:這個過程也就是構造決策樹,同樣也可以說是決策樹學習,就是構造乙個決策樹的資料結構。
測試演算法:使用經驗樹計算錯誤率。當錯誤率達到了可接收範圍,這個決策樹就可以投放使用了。
使用演算法:此步驟可以使用適用於任何監督學習演算法,而使用決策樹可以更好地理解資料的內在含義。
簡介樸素貝葉斯演算法是有監督的學習演算法,解決的是分類問題。該演算法的優點在於簡單易懂、學習效率高、在某些領域的分類問題中能夠與決策樹、神經網路相媲美。
基本步驟
將文字切分,存放到原始列表中,並對詞彙向量進行標註。
建立乙個詞彙表,並將切分好的詞條轉換為詞條向量,詞彙表(所有單詞出現的集合,裡面沒有重複元素)是用來將詞條向量化的,乙個單詞在詞彙表**現過一次,那麼就在相應位置記作1,如果沒有出現就在相應位置記作0。
得到詞條向量後,通過詞條向量訓練樸素貝葉斯分類器。
使用分類器進行分類。
機器學習演算法(一)基礎知識
基礎知識 需要準備知識 第一層 通過演算法學習了解基本原理 第二層 數學方面的推導 第三層 會用語言或者工具包解決問題,掌握一門語言,實現演算法原型 第四層 會優化演算法 綱要 機器學習的幾個基本概念 機器學習的實質 在輸入空間到輸出空間中的各種假設形成的假設空間中,去搜尋乙個假設,這個假設對當前資...
機器學習基礎演算法一 KNN演算法回歸實驗
前期資料處理 import numpy as np import pandas as pd 增加 的列數行數和每行的寬度以此讓資料集完整表示 pd.set option display.max rows 500 pd.set option display.max columns 500 pd.set...
機器學習基礎(一)
核心 資料 演算法 算力 人工 神經網路 nn 原理 基於tensorflow的nn 用張量表示資料,用計算圖搭建神經網路,在會話裡執行計算圖,優化引數 權重 得到模型。過程 訓練 資料集 前向傳播 反向傳播 推理 和分類 前向傳播 張量 多維陣列 計算圖 搭建神經網路的計算過程,是承載乙個或多個計...