機器學習是實現人工智慧的一種方法, 簡單來說,機器學習就是使用演算法分析資料(需要我們自己找特徵值),從中學習並做出推斷或**。與傳統的使用特定指令集手寫軟體不同,我們使用大量資料和演算法來「訓練」機器,由此帶來機器學習如何完成任務
深度學習:深度學習是一種特殊的機器學習,深度與機器最大區別是機器學習需要人工尋找給定特徵值,深度學習不用的,機器會自己分析特徵值
資料的採集 (本身資料、爬蟲爬取資料)
資料清洗 (噪音、空值、無效特徵、日期格式轉化)
特徵的選擇 (從多個特徵中,分析和選擇合適的特徵)
模型的訓練集和測試集:一般按照8:2 或者 7:3來劃分,然後用訓練資料集來訓練模型,訓練出來後在用測試資料集來測試模型的準確度
模型的選擇 (根據不同的需求、問題領域、資料量大小、訓練時長、模型的準確度等都有關)
模型的效能評估和優化 (訓練時長、資料集是否足夠多、**場景效能要求、**的精準度…)
模型的使用 (訓練好的模型把引數儲存起來,方便在下一次在**資料時使用)
推薦採用csv格式,pandas天生對csv有良好的支援
mysql效能瓶頸,讀取速度有問題
kaggle資料集:大資料、真實資料
scikitlearn:資料量小、方便學習:https://scikitlearn.org/stable/
uci特點:收錄了360個資料集,覆蓋科學、生活、經濟等專業領域、資料量幾十萬:
特徵工程定義:是將原始資料轉化為更好的代表**模型的潛在問題的特徵的過程,從而提高了未知資料的**準確性。資料和特徵決定了機器學習的上限,而模型和演算法知識逼進這個上限而已。1. 如果將原始的資料處理成合格的資料輸入(特徵工程要解決問題)2. 某一列特徵很重要,但是樣本裡面這列的值都一樣,那麼它還很重要嗎?3. 思考:在各種機器學習的競賽中,第一名與第二名的差距到底在**
通過特定的統計方法(數學方法)將資料轉換成演算法要求的資料1. 數值型別預處理:1:標準化縮放、歸一化2. 時間型別:時間的序列、切分3. 類別型別資料:onehot編碼 (分類, 0 1)
對於歸一化來說:如果出現了異常點,影響了最大值與最小值,那麼結果顯然會發生改變2. 對於標準化來說:如果出現異常點,由於具有一定資料量,少量的異常點對於平均值的影響並不大,從而方差改變較小3. 方差可以用來衡量與中心偏離的程度,用來衡量一批資料的波動大小,方差越大,說明資料的波動越大,越不穩定4. 如果var方差為0,則說明某特徵列的值都相同,那麼在後續進行此機器學習時此特徵列可以忽略
Python 機器學習基礎
pandas matplotlib reference numpy 的資料結構 numpy的基本操作 當進行 和 等邏輯判斷時,numpy會對array中所有元素進行判斷。import numpy vector numpy.array 5,10,6,7 vector 10 output array ...
python基礎(機器學習)
高階函式 import time def deco func starttime time.time func endtime time.time msecs endtime starttime 100 print time is d ms msecs def func print hello ti...
python機器學習基礎
可定義為 機器學習是從資料中自動分析獲得的模型,並利用模型對未知資料進行 可分為 監督學習 主要特點是要在訓練模型時提供給學習系統訓練樣本以及樣本隊員的類別標籤,因此又稱為有導師學習。例 學生從老師那裡獲取知識,資訊,老師提供對錯知識 告知最終答案的學習過程。典型的監督學習方法 決策樹,支援向量機 ...