從機器學習看特徵工程

2021-10-23 20:46:25 字數 769 閱讀 4782

到底什麼是特徵工程,為什麼需要特徵工程?

這一切要從機器學習說起,為了提取知識和做出**,機器學習使用數學模型來擬合資料;然而資料的表示形式各樣,有文字、語音、影象、數值等等,它們並不能直接作為模型的輸入。此時模型將特徵作為輸入,特徵就是資料和模型之間的紐帶,是原始資料在某個方面的數值表示。

特徵工程:指從原始資料中提取特徵並將其轉換為適合機器學習模型的格式,特徵工程沒有統一的正規化,正確的特徵工程應該適合當前的任務

為了更好理解特徵工程的重要性,接下來我們梳理一下機器學習流程

資料是現實世界的現象的觀測,例如乙個人的生物特徵資料和生活活動。

每份資料都是管中窺豹,只能反映一小部分現實,把這些觀測結合起來才能得到乙個完整的描述,其中存在測量雜訊和缺失值。

從資料到知識的路上,充滿了錯誤的開始和死胡同。「有意栽花花不發,無心插柳柳成蔭。」就是最真實的寫照,通過資料來理解世界就像是玩拼圖,而且可能會有部件的缺失。

資料的數學模型描述了資料不同部分之間的關係,通過數學公式將數值型的變數聯絡起來,但原始的資料經常不是數值型的,故此時需要用特徵工程將資料和模型聯絡。

特徵是原始資料的數值表示,有多種方法可將原始資料轉換為數值型的表示,所以特徵可以有多種形式,正確的特徵應該適合當前的任務,並易於被模型使用。

綜述,特徵工程將是在給定資料、模型和任務的情況下設計出最合適的特徵工程。

機器學習 特徵工程

老師有多年的網際網路從業經驗,所以講解的過程中結合了很多任務業界的應用,更加的深入淺出。資料採集 資料採集前需要明確採集哪些資料,一般的思路為 哪些資料對最後的結果 有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?舉例1 我現在要 使用者對商品的下單情況,或者我要給使用者做商品推薦,那...

機器學習 特徵工程

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。通俗的說,就是盡可能的從原始資料中獲取更多資訊,從而使得 模型達到最佳。簡而言之,特徵工程是乙個把原始資料變成特徵的過程,這些特徵可以很好的描述資料,並且利用它們建立的模型在未知資料上表現效能可以達到最優。實驗結果取決於獲取的資料 ...

機器學習特徵工程

作用 對字典資料進行特徵值化 dictvectorizer語法 例項化了乙個物件 data dict fit transform x print dict get feature names print data return none if name main dictvec 結果 分析 使用di...