使用者特徵工程

2021-08-19 15:59:42 字數 320 閱讀 9341

1w1

,w2w2,w3w3

沒在語料庫中出現過,那根據最大似然估計mle,這些詞出現的概率為0。但是實際上這些詞出現的概率肯定是不為0的。像最大似然估計裡涉及到很多概率的連乘計算,如果乙個概率為0,就會導致整體計算結果為0。這時候,就需要我們對資料進行平滑了。 

平滑的演算法有很多。最簡單的平滑方式屬於加1平滑了,就是給每種情況出現的次數都加上1,這樣就避免了概率為0的情況。這種方式簡單粗暴,實際使用的效果一般也不會特別理想。當然還有good-turning平滑,線性插值平滑(linear interpolation smoothing)等其他演算法,根據具體的業務場景進行選擇。

使用者特徵工程 超詳細解讀

原則 如果資料的分布服從高斯分布 正態分佈 3原則是指,測量值如果與平均值的偏差超過3 3 即為異常值。理論依據如下 當x n 0,1 x n 0,1 p 0.683 p 0.683,p 0.954 p 0.954,p 0.997 p 0.997 那麼如果隨機變數x x服從正態分佈,從 3 3 到 ...

特徵工程(1) 特徵工程是什麼?

特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...

特徵工程 特徵交叉 交叉特徵 特徵組合

關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...