詞向量的表示方法一般有兩種,一種是one-hot representation(獨熱編碼,稀疏表達),還有一種是distributed representation(稠密表達),一般用到的都是分布式表達的詞向量表示方法。
word2vec是稠密表達的一種演算法,是一種自編碼的無監督訓練演算法。word2vec有兩種模型,一種是cbow,一種是skip-gram。
word2vec的損失函式可以表示為:log
p(o∣
c)=l
ogex
p(uo
tvc)
∑w=1
v(uw
tvc)
log\space p(o|c)=log\frac^v(u_w^tv_c)}
logp(o
∣c)=
log∑
w=1v
(uw
tvc
)ex
p(uo
tvc
)
因為原始訓練方法訓練比較複雜繁瑣,因此提出了負取樣的方法,負取樣方法的損失函式計算公式為:jt(
θ)=l
ogσ(
uotv
c)+∑
i=1k
ej∼p
(w)[
logσ
(−uj
tvc)
]j_t(\theta)=log \sigma(u_o^tv_c)+\sum_^ke_[log\space \sigma(-u_j^tv_c)]
jt(θ)
=log
σ(uo
tvc
)+i
=1∑k
ej∼
p(w)
[lo
gσ(−
ujt
vc)
]該演算法使用梯度下降進行引數更新:θne
w=θo
ld−α
▽θj(
θ)\theta^=\theta^-\alpha \********down_j(\theta)
θnew=θ
old−
α▽θ
j(θ)
word2vec模型效能的評價方法分為內部評價和外部評價;glove是全域性統計方法+word2vec的方法;
優點:
缺點:
h (x
)=∑i
=1np
(xi)
log1
p(xi
)h(x)=\sum_^np(x_i)log\frac
h(x)=i
=1∑n
p(x
i)l
ogp(
xi)
1交叉熵計算的是兩個概率分布的距離,假設現在有兩個概率分布,乙個是樣本分佈概率p,乙個是模型概率分布q。兩個概率之間的交叉熵就是h(p
,q)=
−∑ip
(xi)
logq
(xi)
h(p,q)=-\sum_ip(x_i)log\space q(x_i)
h(p,q)
=−i∑
p(x
i)l
ogq(
xi)
交叉熵越小,表示真實概率分布和模型估計概率分布越接近。我們要優化模型,目的就是為了使交叉熵變小。
決策平面p(y
=1∣x
)p(y
=0∣x
)=1\frac=1
p(y=0∣
x)p(
y=1∣
x)=
1當p(y=
1∣x)
>p(
y=0∣
z)p(y=1|x)>p(y=0|z)
p(y=1∣
x)>p(
y=0∣
z),樣本被分到y=1
y=1y=
1類;當p (y
=1∣x
)y=0∣
x)p(y=1|x)p(
y=1∣
x)y=0∣
x),樣本被分到y=0
y=0y=
0類;
命名實體識別的發展歷史
命名實體識別類別
實際應用中,ner模型通常只要識別出人名、地名、組織結構名,可以定義實際需要的ner類別;
ner當前學術界認為是已經解決的問題,但應用中歧義和錯誤仍然很多;
因為命名實體識別的訓練語料是有限的,主要的訓練語料是新聞語料,實體類別也是固定的,一般不會很多。通過訓練資料,測試效果可能不錯,但是在實際應用中一般應用於比較難的任務,這時效果比較差。ner本身是乙個開放性問題,實體是不斷增加的,網路詞彙會不斷增加,ner在沒有足夠訓練語料的情況下很難取得較好的結果,所以ner在實際應用中的效果並沒有很好。
cs231n lecture 2 課程筆記
key knn,線性分類器,資料驅動 1.nearest neighbor 最近鄰居分類器 分訓練集和測試集 資料集 cifar10 匹配方法 l1 distance or 曼哈頓距離 對應位置畫素之差的絕對值加和,最小即最近 2.k nearest neighbor knn 由k個最近鄰居投票得出...
002 課程導學
目錄 二 第一部分 python快速入門 2.2 第2天 python基本圖形繪製 三 第二部分 python基礎語法 3.2 第4天 程式的控制結構 3.3 第5天 函式和 復用 3.4 第6天 組合資料型別 3.5 第7天 檔案和資料格式化 四 第三部分 python程式設計思維 4.2 第9天...
CS231課程筆記翻譯
完結!cs231n官方筆記授權翻譯總集篇發布 智慧型單元 知乎專欄 cs231n課程筆記翻譯 影象分類筆記 上 智慧型單元 知乎專欄 cs231n課程筆記翻譯 影象分類筆記 下 智慧型單元 知乎專欄 cs231n課程筆記翻譯 線性分類筆記 上 智慧型單元 知乎專欄 cs231n課程筆記翻譯 線性分類...