收集資料
我們可以使用很多方法收集樣本資料,如:製作網路爬蟲從**上抽取資料、從rss反饋或者api中得到資訊、裝置傳送過來的實測資料(風速、血糖等)。提取資料的方法非常多,為了 節省時間與精力,可以使用公開可用的資料來源。
準備輸入資料
得到資料之後,還必須確保資料格式符合要求,此外還需要為機器學習演算法準備特定的資料格式,如某些演算法要求特徵值使用特定的格式,一些演算法要求目標變數和特徵值是字串型別,而另一些演算法則可能要求是整數型別。後續章節我們還要討論 這個問題,但是與收集資料的格式相比,處理特殊演算法要求的格式相對簡單得多。
分析輸入資料
此步驟主要是人工分析以前得到的資料。為了確保前兩步有效,最簡單的方法是用文字編輯器開啟資料檔案,檢視得到的資料是否為空值。此外,還可以進一步瀏覽資料,分析是否可 以識別出模式;資料中是否存在明顯的異常值,如某些資料點與資料集中的其他值存在明顯的差異。通過一維、二維或三維圖形展示資料也是不錯的方法,然而大多數時候我們得到資料的特徵值都不會 低於三個,無法一次圖形化展示所有特徵。本書的後續章節將會介紹提煉資料的方法,使得多維資料可以壓縮到二維或三維,方便我們圖形化展示資料。
訓練演算法
根據演算法的不同,第4步和第5步是機器學習演算法的核心。我們將前兩步得到的格式化資料輸入到演算法,從中抽取知識或資訊。這裡得到的知識需要儲存為計算機可以處理的格式,方便後續步驟使用。
如果使用非監督學習演算法,由於不存在目標變數值,故而也不需要訓練演算法,所有與演算法相關的內容都集中在第5步。
測試演算法
這一步將實際使用第4步機器學習得到的知識資訊。為了評估演算法,必須測試演算法工作的效果。對於監督學習,必須已知用於評估演算法的目標變數值;對於非監督學習,也必須用其他的評 測手段來檢驗演算法的成功率。無論哪種情形,如果不滿意演算法的輸出結果,則可以回到第4步,改正並加以測試。問題常常會跟資料的收集和準備有關,這時你就必須跳回第1步重新開始。
使用演算法
將機器學習演算法轉換為應用程式,執行實際任務,以檢驗上述步驟是否可以在實際環境中正常工作。此時如果碰到新的資料問題,同樣需要重複執行上述的步驟。
ML 機器學習基礎
目錄 偏差與方差 導致偏差和方差的原因 深度學習中的偏差與方差 生成模型與判別模型 兩者之間的聯絡 優缺點常見模型 先驗概率與後驗概率 在監督學習中,模型的泛化誤差可分解為偏差 方差與雜訊之和 偏差用於描述模型的擬合能力 方差用於描述模型的穩定性 方差通常是由於模型的複雜度相對於訓練集過高導致的 監...
ml 統計 基礎
roc曲線理解 好文 precison 查準率 為正例的樣本中真正正例的比例。recall 召回率 真正為正例的樣本有多少被 出來。正確率 正負例都對的比例。優勢 正負樣本的分布變化時 即比例大改變 roc曲線能夠保持不變。在上圖中,a和c為roc曲線,b和d為precison和recall曲線。a...
機器學習基礎 機器學習基礎引入
機器學習 是人工智慧的核心研究領域之一,其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智慧。事實上,由於 經驗 在計算機系統中主要是以資料的形式存在的,因此機器學習需要設法對資料進行分析,這就使得它逐漸成為智慧型資料分析技術的創新源之一。機器學習是構建複雜系統的一種方法,也許依靠我們...