1.給定語料,統計語料中的詞性為n,片語為m。
2.hmm關注3個引數
a.初始化概率
b.狀態轉移矩陣 n*n
c.觀測狀態概率矩陣 n*m
3.狀態轉移矩陣:詞a的詞性為詞性a,詞b的詞性為詞性b,ab為相連詞,從給定的語料中統計從詞性a轉換到詞性b出現的次數/詞性a轉換到所有可能轉換的詞性的次數為狀態轉移矩陣中的aij.所以有n*n個概率。
4.觀測狀態概率矩陣:詞性a下為詞a的次數/詞性a下所有詞的數目,所以為n*m。
5.初始化概率:求的是每個詞性的先驗概率,即為:詞性a出現的次數/總的詞性現的次數,長度為n的list,即為初始化概率。
詞性標註問題:
a.第一步是求出初始化狀態先驗概率,為初始化概率。
b.求出狀態轉移矩陣。
c.求出觀測狀態概率矩陣,以上這3步為hmm中的學習問題。
d.利用求出來的這3個引數,那麼就是乙個hmm模型,那麼就可以用著3個引數求出最大概率序列,即為hmm的**問題,
一階HMM詞性標註
手頭的語料庫依然是msr training.utf8和msr test.utf8,它來自於自于sighan bakeoff 2005的 icwb2 data.rar 1.rmspace.cpp研究院的訓練文件是已經分好詞,但我們並不需要這個結果,我們要使用計算所有分詞系統重新進行分詞並進行詞性標註,...
HMM與分詞 詞性標註 命名實體識別
hmm 隱馬爾可夫模型 是用來描述隱含未知引數的統計模型,舉乙個經典的例子 乙個東京的朋友每天根據天氣決定當天的活動中的一種,我每天只能在twitter上看到她發的推 啊,我前天公園散步 昨天購物 今天清理房間了!那麼我可以根據她發的推特推斷東京這三天的天氣。在這個例子裡,顯狀態是活動,隱狀態是天氣...
詞性標註的詞性說明
1.cc coordinating conjunction 連線詞 2.cd cardinal number 基數詞 3.dt determiner 限定詞 如this,that,these,those,such,不定限定詞 no,some,any,each,every,enough,either,...