第一章 特徵工程

2021-10-24 13:32:01 字數 717 閱讀 3859

前言

一、什麼是特徵工程?

二、為什麼執行特徵工程?

三、特徵提取

三、特徵選擇

總結顧名思義,特徵工程就是從資料中對特徵進行工程化。

特徵工程就是將原資料轉換為能更好的代表**模型潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。

在機器學習中,任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵對於提高模型的**能力是非常重要的。當嘗試解決現實問題時,由於特徵可能存在許多問題,如缺失值、離群值、不同型別、資料收集錯誤等,因此並不是總是能獲得理性的特徵。在訓練機器學習模型之前,必須進行清理、變換並找到正確的特徵集。

特徵提取是通過對現有特徵集進行一些變換,來選擇新特徵以去除冗餘的過程。在原始資料中,可能存在很多特徵。但是,我們也可以用較少的新特徵來表示所有這些特徵,這成為特徵提取(feature extraction)。新特徵可以向舊特徵一樣準確地表示資料。進行特徵提取的優點在於減少了訓練資料的維數。

特徵選擇是從資料中選擇特徵子集的技術,它和特徵提取不同,後者是建立新特徵的過程。特徵選擇是從資料本身中找到有用的特徵,它如此重要的原因在於以下幾點:

特徵選擇基本上是乙個搜尋問題,必須找到方法來選擇能產生更好結果的特徵。在特徵選擇中使用的不同方法包括以下幾種:

還有其它方法被用於特徵選擇,如嵌入法(embedded method).這些方法也可以在徵)。這些方法也可以在訓練特徵中選擇人最佳特徵。

百面機器學習第一章 特徵工程

2 類別型特徵 3 高維組合特徵的處理 4 組合特徵 5 文字表示模型 6 word2vec 7 影象資料不足時的處理方法 為了消除資料特徵之間的量綱影響,對特徵進行歸一化處理,使不同指標之間具有可比性。常用的歸一化方法 線性函式歸一化,xno rm x xmi nxma x xm in x fra...

工程導論第一章總結

1.學完這章,我覺得工程技術就是人們在生活中運用數學或其他知識發現的成果,從而讓我們的生活變得更加方便,更加去適應自然。2.古代和今天的技術發展有什麼不同?古代的技術發展比較差,因為受到戰亂影響還有各種條件限制所以技術類的發展很慢,而耕種 水渠方面的技術比較好。而現代溫飽解決了,所以都是在想怎麼把生...

python第一章筆記 第一章 基礎

參與除法的兩個數中有乙個數為浮點數,結果也為浮點數 如 1.0 2,1 2.0,1.0 2.0 python print 1.0 2 結果 0.5 print 1 2.0 結果 0.5 print 1.0 2.0 結果 0.5 整數 整數,計算結果的小數部分被截除,只保留整數部分 不會四捨五入 如 ...