使用者特徵工程 超詳細解讀

2021-08-19 08:52:14 字數 720 閱讀 3217

σ原則 

如果資料的分布服從高斯分布(正態分佈),3原則是指,測量值如果與平均值的偏差超過3σ3σ

,即為異常值。理論依據如下: 當x∼

n(0,

1)x∼n(0,1),p=

0.683

p=0.683,p=

0.954

p=0.954,p=

0.997

p=0.997

。那麼如果隨機變數x

x服從正態分佈,從μ−3

σμ−3σ到μ+

3σμ+3σ

的區間內,概率密度曲線下的面積佔總面積的99.7%。換句話說,隨機變數x

x落在μ−3

σμ−3σ到μ+

3σμ+3σ

的區間外的概率只有0.3%。這就是3σ

σ原則。1w1

,w2w2,w3w3

沒在語料庫中出現過,那根據最大似然估計mle,這些詞出現的概率為0。但是實際上這些詞出現的概率肯定是不為0的。像最大似然估計裡涉及到很多概率的連乘計算,如果乙個概率為0,就會導致整體計算結果為0。這時候,就需要我們對資料進行平滑了。 

平滑的演算法有很多。最簡單的平滑方式屬於加1平滑了,就是給每種情況出現的次數都加上1,這樣就避免了概率為0的情況。這種方式簡單粗暴,實際使用的效果一般也不會特別理想。當然還有good-turning平滑,線性插值平滑(linear interpolation smoothing)等其他演算法,根據具體的業務場景進行選擇。

矩陣分解 超詳細解讀

基於矩陣分解的推薦演算法 一,相關理論介紹 矩陣分解確實可以解決一些近鄰模型無法解決的問題,近鄰模型存在的問題 1 物品之間存在相關性,資訊量並不是隨著向量維度增加而線性增加 2 矩陣元素稀疏,計算結果不穩定,增減乙個向量維度,導致緊鄰結果差異很大的情況出現。矩陣分解就是把原來的大矩陣,近似的分解成...

使用者特徵工程

1w1 w2w2,w3w3 沒在語料庫中出現過,那根據最大似然估計mle,這些詞出現的概率為0。但是實際上這些詞出現的概率肯定是不為0的。像最大似然估計裡涉及到很多概率的連乘計算,如果乙個概率為0,就會導致整體計算結果為0。這時候,就需要我們對資料進行平滑了。平滑的演算法有很多。最簡單的平滑方式屬於...

webpack配置超詳細注釋解讀

const htmlwebpackplugin require html webpack plugin const cleanwebpackplugin require clean webpack plugin 需要解構,正確方式如下 const require clean webpack plug...