1. 特徵定義
為了提取知識和做出**,機器學習使用數學模型來擬合資料。這些模型將特徵作為輸入。特徵就是原始資料某個方面的數值表示。在機器學習流程中,特徵是資料和模型之間的紐帶。特徵工程是指從原始資料中提取特徵並將其轉換為適合機器學習模型的格式。它是機器學習流程中乙個極其關鍵的環節,因為正確的特徵可以減輕構建模型的難度,從而使機器學習流程輸出更高質量的結果。
2. 機器學習流程
2.1 資料
資料是對現實世界的現象的觀測。
2.2 任務
收集資料的原因。
2.3 模型
資料的數學模型描述了資料不同部分之間的關係。
2.4 特徵
特徵是原始資料的數值表示。
2.5 模型評價
模型與特徵相輔相成,對其中乙個的選擇會影響另乙個。好的特徵可以使隨後的建模步驟更容易,最後得出的模型也能更好的完成所需的任務。
3. 特徵工程
特徵工程就是在給定資料、模型和任務的情況下設計出最合適的特徵的過程。
4. 參考文獻
《精通特徵工程》
特徵工程之類別特徵 處理方法介紹
當類別特徵仍保持原始形式時,其取值來自所有可能取值構成的集合而不是乙個數字,故不能作為輸入。當各個取值之間是沒有順序關係的並列關係,這樣的類別特徵稱為 名義 nominal 變數。相反,那些存在順序關係的 比如評級,評級5的會好於評級1的 則被稱為 有序 ordinal 變數。將類別特徵表示為數字形...
特徵工程(1) 特徵工程是什麼?
特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...
特徵工程 特徵交叉 交叉特徵 特徵組合
關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...