向量化vectorization
vectorization是使用矩陣計算來代替for迴圈,以簡化計算過程,提高效率。
如上式,σ(...)是乙個求和的過程,顯然需要乙個for語句迴圈m次,所以根本沒有完全的實現vectorization。
下面介紹向量化的過程:
約定訓練資料的矩陣形式如下,x的每一行為一條訓練樣本,而每一列為不同的特稱取值:
g(a)的引數a為一列向量,所以實現g函式時要支援列向量作為引數,並返回列向量。由上式可知
θ更新過程可以改為:
綜上所述,vectorization後θ更新的步驟如下:
(1)求
(2)求
(3)求
正則化regularization
過擬合問題
對於線性回歸或邏輯回歸的損失函式構成的模型,可能會有些權重很大,有些權重很小,導致過擬合(就是過分擬合了訓練資料),使得模型的複雜度提高,泛化能力較差(對未知資料的**能力)。
下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。
問題的主因
過擬合問題往往源自過多的特徵。
解決方法
1)減少特徵數量(減少特徵會失去一些資訊,即使特徵選的很好)
2)正則化(特徵較多時比較有效)
正則化方法
正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化項就越大。
從房價**問題開始,這次採用的是多項式回歸。左圖是適當擬合,右圖是過擬合。
直觀來看,如果我們想解決這個例子中的過擬合問題,最好能將
這樣在最小化cost函式的時候,
正則項可以取不同的形式,在回歸問題中取平方損失,就是引數的l2範數,也可以取l1範數。取平方損失時,模型的損失函式變為:
lambda是正則項係數:
正則化後的梯度下降演算法θ的更新變為:
正則化後的線性回歸的normal equation的公式為:
文字向量化
table of contents概述 word2vec nnlm c wcbow and skip gram doc2vec str2vec 文字表示是自然語言處理中的基礎工作,文字表示的好壞直接影響到整個自然語言處理系統的效能。文字向量化就是將文字表示成一系列能夠表達文字語義的向量,是文字表示的...
文字向量化
文字向量化,就是把文字轉化為向量形式。這裡用兩種方式實現本文向量,一種是tf方式,一種是tf idf方式,且這裡向量的長度就是字典的長度。計算兩個向量余弦相似度import math defcount cos similarity vec 1,vec 2 if len vec 1 len vec 2...
光柵的向量化
光柵資料檔案描述的是畫素,即乙個個的點。檔案的大小與解析度有相當大的關係。相同幅面圖紙形成的光柵檔案大小相等。向量 vector 資料檔案描述的是圖形單元,如一根直線 乙個圓等。檔案大小只與圖形單元的多少和複雜程度有關,而與圖紙幅面無直接關係。可直接用現有cad軟體進行編輯。光柵資料檔案轉化為向量資...