向量化與正則化

2021-07-23 19:35:48 字數 1660 閱讀 3947

向量化vectorization

vectorization是使用矩陣計算來代替for迴圈,以簡化計算過程,提高效率。

如上式,σ(...)是乙個求和的過程,顯然需要乙個for語句迴圈m次,所以根本沒有完全的實現vectorization。

下面介紹向量化的過程:

約定訓練資料的矩陣形式如下,x的每一行為一條訓練樣本,而每一列為不同的特稱取值:

g(a)的引數a為一列向量,所以實現g函式時要支援列向量作為引數,並返回列向量。由上式可知

θ更新過程可以改為:

綜上所述,vectorization後θ更新的步驟如下:

(1)求

(2)求

(3)求

正則化regularization

過擬合問題

對於線性回歸或邏輯回歸的損失函式構成的模型,可能會有些權重很大,有些權重很小,導致過擬合(就是過分擬合了訓練資料),使得模型的複雜度提高,泛化能力較差(對未知資料的**能力)。

下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。

問題的主因

過擬合問題往往源自過多的特徵。

解決方法

1)減少特徵數量(減少特徵會失去一些資訊,即使特徵選的很好)

2)正則化(特徵較多時比較有效)

正則化方法

正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化項就越大。

從房價**問題開始,這次採用的是多項式回歸。左圖是適當擬合,右圖是過擬合。

直觀來看,如果我們想解決這個例子中的過擬合問題,最好能將

這樣在最小化cost函式的時候,

正則項可以取不同的形式,在回歸問題中取平方損失,就是引數的l2範數,也可以取l1範數。取平方損失時,模型的損失函式變為:

lambda是正則項係數:

正則化後的梯度下降演算法θ的更新變為:

正則化後的線性回歸的normal equation的公式為:

文字向量化

table of contents概述 word2vec nnlm c wcbow and skip gram doc2vec str2vec 文字表示是自然語言處理中的基礎工作,文字表示的好壞直接影響到整個自然語言處理系統的效能。文字向量化就是將文字表示成一系列能夠表達文字語義的向量,是文字表示的...

文字向量化

文字向量化,就是把文字轉化為向量形式。這裡用兩種方式實現本文向量,一種是tf方式,一種是tf idf方式,且這裡向量的長度就是字典的長度。計算兩個向量余弦相似度import math defcount cos similarity vec 1,vec 2 if len vec 1 len vec 2...

光柵的向量化

光柵資料檔案描述的是畫素,即乙個個的點。檔案的大小與解析度有相當大的關係。相同幅面圖紙形成的光柵檔案大小相等。向量 vector 資料檔案描述的是圖形單元,如一根直線 乙個圓等。檔案大小只與圖形單元的多少和複雜程度有關,而與圖紙幅面無直接關係。可直接用現有cad軟體進行編輯。光柵資料檔案轉化為向量資...