python與機器學習基礎（一）

機器學習是實現人工智慧的一種方法, 簡單來說，機器學習就是使用演算法分析資料（需要我們自己找特徵值），從中學習並做出推斷或**。與傳統的使用特定指令集手寫軟體不同，我們使用大量資料和演算法來「訓練」機器，由此帶來機器學習如何完成任務

深度學習：深度學習是一種特殊的機器學習，深度與機器最大區別是機器學習需要人工尋找給定特徵值，深度學習不用的，機器會自己分析特徵值

資料的採集 (本身資料、爬蟲爬取資料)

資料清洗 (噪音、空值、無效特徵、日期格式轉化)

特徵的選擇 (從多個特徵中，分析和選擇合適的特徵)

模型的訓練集和測試集：一般按照8:2 或者 7:3來劃分，然後用訓練資料集來訓練模型，訓練出來後在用測試資料集來測試模型的準確度

模型的選擇 (根據不同的需求、問題領域、資料量大小、訓練時長、模型的準確度等都有關)

模型的效能評估和優化 (訓練時長、資料集是否足夠多、**場景效能要求、**的精準度…)

模型的使用 (訓練好的模型把引數儲存起來，方便在下一次在**資料時使用)

推薦採用csv格式，pandas天生對csv有良好的支援

mysql效能瓶頸，讀取速度有問題

kaggle資料集：大資料、真實資料

scikitlearn：資料量小、方便學習：https://scikitlearn.org/stable/

uci特點：收錄了360個資料集，覆蓋科學、生活、經濟等專業領域、資料量幾十萬：

特徵工程定義：是將原始資料轉化為更好的代表**模型的潛在問題的特徵的過程，從而提高了未知資料的**準確性。資料和特徵決定了機器學習的上限，而模型和演算法知識逼進這個上限而已。1. 如果將原始的資料處理成合格的資料輸入(特徵工程要解決問題)2. 某一列特徵很重要，但是樣本裡面這列的值都一樣，那麼它還很重要嗎?3. 思考：在各種機器學習的競賽中，第一名與第二名的差距到底在**

通過特定的統計方法(數學方法)將資料轉換成演算法要求的資料1. 數值型別預處理：1：標準化縮放、歸一化2. 時間型別：時間的序列、切分3. 類別型別資料：onehot編碼（分類， 0 1）

對於歸一化來說：如果出現了異常點，影響了最大值與最小值，那麼結果顯然會發生改變2. 對於標準化來說：如果出現異常點，由於具有一定資料量，少量的異常點對於平均值的影響並不大，從而方差改變較小3. 方差可以用來衡量與中心偏離的程度，用來衡量一批資料的波動大小,方差越大，說明資料的波動越大，越不穩定4. 如果var方差為0，則說明某特徵列的值都相同,那麼在後續進行此機器學習時此特徵列可以忽略

python與機器學習基礎（一）

Python 機器學習基礎

python基礎（機器學習）

python機器學習基礎

python與機器學習基礎（一）

Python 機器學習基礎

python基礎（機器學習）

python機器學習基礎

相關推薦