機器學習 特徵工程知識點總結

2021-09-13 18:09:20 字數 2932 閱讀 7752

* 人工智慧:50年代:機械自動化生產

* 機器學習:80年代:郵件分類

* 深度學習:最近十年:影象識別

* 機器學習定義:

* 資料

* 自動分析獲得規律

* 對未知資料進行**

* 為什麼需要機器學習

* 提高生產效率

* 機器學習應用場景

* 用在挖掘、**領域

* 用在影象領域

* 用在自然語言處理領域(語音)

* 特徵工程

* 意義:會直接影響機器學習的效果

* 作用:篩選、處理選擇一些合適的特徵

* 特徵抽取

特徵預處理

特徵降維

* 資料集的組成:

* 特徵值:事物的一些特徵(特點)

* 目標值:最終要**的結果

* 特徵抽取

* 將任意資料(如文字或影象,類別特徵)轉換為可用於機器學習的數字特徵

* sklearn.feature_extraction

* 字段資料特徵抽取

* 目的:對特徵當中有類別的資訊做處理———>one-hot編碼

* dictvectorizer:預設返回sparse矩陣,sparse=false

* dictvectorizer(sparse=false)

* ['city=上海', 'city=北京', 'city=深圳', 'temperature']

* [[ 0. 1. 0. 100.]

[ 1. 0. 0. 60.]

[ 0. 0. 1. 30.]]

* 文字特徵抽取

* get_feature_names() 返回值:單詞列表

* countvectorizer(stop_words):

* 對於單個字母,對文章主題沒有影響。單詞可以有影響

* 對於中文來講:也不統計單個漢字,只能以符號隔開每個詞語

* stop_words:停止詞

* 這些詞不能放映文章主題,詞語性質比較中性

* 因為、所以等等

* **為了處理這種同乙個詞在很多篇文章當**現的次數都比較多**

* tf-idf文字特徵提取:用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度

* tf * idf

* tf:詞頻(term frequency,tf)指的是某乙個給定的詞語在該檔案**現的頻率

* idf 由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取以10為底的對數得到

* 5/100=0.05 * lg(1千萬/1萬)= 3 = 0.15

* 對每篇文章的重要性排序,找到每篇前n個重要的詞

* 特徵預處理:基本的出局處理-缺失值處理(pandas)

* 數值型資料:一些**轉換函式將特徵資料轉換**成更加適合演算法模型的特徵資料過程

* 特徵預處理:sklearn.preprocessing

* 原因:無量綱化: **特徵的單位或者大小相差較大**,或者某特徵的方差相比其他的特徵要大出幾個數量級,容易影響(支配)目標結果,**使得一些演算法無法學習到其它的特徵**

* 無量綱化最終結果:**使不同規格的資料轉換到同一規格**

* * 歸一化

* 通過對原始資料進行變換把資料對映到(預設為[0,1])之間

* sklearn.preprocessing.minmaxscaler (feature_range=(0,1)… )

* 歸一化容易受到異常資料影響,每個特徵的最大值和最小值容易變化

* **標準化**

* 平均值、標準差

* 對於歸一化來說:如果出現異常點,影響了最大值和最小值,那麼結果顯然會發生改變

對於標準化來說:如果出現異常點,由於具有一定資料量,少量的異常點對於平均值的影響並不大,從而方差改變較小。

* 作用:每列特徵資料都聚集在均值0, 標準差為1範圍

* 特徵降維

* 維度:特徵的數量

* **降低特徵數量, 得到一些不相關的特徵**

* * 特徵選擇

* filter(過濾式):主要****特徵本身特點**、**特徵與特徵**和目標值之間關聯

* 方差選擇法:低方差特徵過濾

* 方差很大:所有樣本的某個特徵值的差異性比較大

* 不太好選擇這個方差的值,作為明顯一些特徵處理

* 係數的值:[-1, 1]

* |r|<0.4為低度相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關

* from scipy.stats import pearsonr

* 相關的特徵必須做一些相應的處理(刪掉其中一些,合成乙個新的)

* 主成分分析

* 高維資料轉化為低維資料的過程,在此過程中**可能會捨棄原有資料、創造新的變數(特徵)**

* 場景:

* 創造新的變數(新的特徵):revenue與指標total_expense壓縮成乙個特徵

* 'revenue', 'total_expense'這兩個指標合成到乙個 新的指標(特徵)

* 使用者跟物品類別降維:

* 合併表,使得user_id與aisle在一張表當中 pd.merge

* 進行交叉表變換 pd.crosstab

* 進行降維 pca

* 特徵降維(選擇、主成分分析):

* **1、刪除一些無用特徵**

* **2、找到特徵之間相關的(刪除,合成)**ß

* 3、尋找特徵與 目標值關係比較大

* 機器學習演算法分類:

* 監督學習:有特徵值有目標值,有標準答案對比

* 兩種資料型別(離散型、連續型)

* 分類:目標值是離散型, 最基礎的是二分類問題

* 回歸:目標值是連續型

* 無監督學習:只有特徵值,沒有目標值

* 聚類:k-means

機器學習知識點總結

錯的。我們可以評估無監督學習方法通過無監督學習的指標,如 我們可以評估聚類模型通過調整蘭德係數 adjusted rand score 把nan直接作為乙個特徵,假設用0表示 用均值填充 用隨機森林等演算法 填充 sgd 隨機梯度下降 sgd momentum 基於動量的sgd 在sgd基礎上做過優...

機器學習 深度學習知識點總結

近期準備秋招,想把之前學過的一些知識總結一下,盡量言簡意賅,主要圍繞機器學習和深度學習,部落格也擱置了一段時間了,以後會常常更新,記錄學習,寫部落格不僅能總結知識,還能在寫的過程中養成思考並查缺的習慣,其實有很多東西想寫的,包括ml dl cv,近期做的人臉識別,還有一些刷題心得等,近期開始慢慢寫吧...

機器學習知識點

1.knn 不適合用來對特徵分布進行分析。2.強化學習中的mdp模型 環境狀態的集合 動作的集合 在狀態之間轉換的規則 規定轉換後 即時獎勵 的規則 描述主體能夠觀察到什麼的規則。3.otsu推到 4.繪製曲線 plt.plot hist.history loss plt.plot hist.his...