2.11具體思路
1)抽取短語時是按照詞性的規律,總結出一般有效短語的詞性模板,然後在已經標註有正、中、負的資料中,根據模板來匹配出評價短語。
2)合併語義相近的短語
3)按照電影維度種子詞把短語劃分到各個維度(或對映到指定明星)
4)根據短語匹配上的情感詞來劃分正負極性
2.12 流程圖
2.2.1模板的選擇
1)模板選擇方法:
a)根據一般有效評價短語的詞性規律總結了部分模板,共23個模板。
a na d n
a a n
a aa u n
d v n
n an d a
n d v
n v n
n n d a
n d d a
n c a
n u n a
n u n d a
n nv n d a
v nv u d a
v u a
i u n
n a a
a a a n
n c a n
v n v
n v u a
n d n u a
n u n d a
n n d d a
n v u d a
v u d v n
v u v n
n v u v n
v n v n
n d v n
n d v n n
n v n n
n v u a u n
n d v u n
b)通過統計相臨的詞性模板(最長5個詞性)的頻率,篩選出高頻模板,通過觀察匹配上這些模板的資料,篩選出部分模板。
2)存在的問題:
現在模板匹配出的短語有一部分是不完整的,不具有實際意義。(這是乙個很重要的問題,有待解決)
2.2.2 短語的抽取
1)整體短語的抽取:
匹配出符合模板的短語,並記錄其在正、中、負資料中的df。匹配時可以把原始資料分離成 漢字串 和 詞性串(兩個串的下標要對應),分離過程中要生成乙個詞性串下標對應的詞性序號的map,然後使用trie對詞性串進行匹配,然後按返回的下標在漢字串中取詞。
eg. 「這個/r 電影/n 很/d 好看/a !/w」
漢字串:這個 電影 很 好看 !
詞性串:r n d a w
map:0 0
2 14 2
6 38 5
使用trie樹匹配出詞性模板n d a,並且知道模板的開始位置是2,然後查儲存的下標對應的序號表,得出模板是在第二個詞開始的(下標是1),然後在測字串中,從第二個詞 開始,取和詞性模板長度一樣的詞做為抽取出的短語。
2)存在的問題:上面的方法分成了幾步稍顯麻煩,快速的方法是根據詞性模板構造乙個有限狀態自動機,在匹配時遍歷一次資料就抽取出短語。
2.2.3短語的合併
1)基於詞典的合併
首先,根據資料總結了乙個程度副詞詞典。然後遍歷抽取出的評價短語,如果包含有程度副詞詞典中的詞語,則把此副詞去掉,短語的其它部分組成新的短語。
現在使用的程度副詞詞典
八成大都
紛紛基本
來講每每
始終向來
有時真是白大多
剛剛基本上
來說明明似的也
有些真心
白白大略格外極
老偶爾太一般
又之比較大體上更極度
老是頗挺乙個勁兒
與否只是
不僅僅大約
更加極了了頗為
通常一面越直直
不免大致
更為極力連確實
同樣一向
越發終年
差點兒得
過於幾乎
連連日常
統共一再
越來越逐步
差一點的好漸漸
屢次日日
統統一直
越是逐漸
常的的確確好好較
屢屢稍萬分依然
云云轉眼間
常常多麼
好容易較為略稍微
萬萬已經再三總
常年而言好在僅
略微十分
往往矣乎
早晚總是
趁早而已很僅僅
馬上時常
微微永遠者足足
處處爾爾
很少經常蠻時而
未免尤其著最
純粹非常
很早久久
慢慢時時
顯然有點真最最
從來分外緩慢就
每實在相當有點兒
真的2)存在的問題:
a)只是合併包含程度副詞的評價短語,明顯合併力度不夠。有些評價短語的主語相同,定語/謂語 的情感也很相近,這類短語也應該合併。而且某些副詞同時也具有形容詞的詞性,例:「楊冪 好 漂亮」 這裡的「好」字明顯可以合併,但在「楊冪 嗓音 好」中的「好」字明顯不能合併。但由於現在沒有考慮詞性,沒法判斷這種情況,所以這樣的副詞沒有加入到副詞詞典。
b)像「楊坤 扭 屁股」與「楊坤 扭 臀」這樣的短語沒有合併
c)由於後新增了一部分較長的模板,而這些長模板包含了部分短模板,所以抽取出的短語中,有部分較長的短語包含了較短的短語,這種情況也沒有合併。
2.2.4維度劃分
1)劃分方法:
在抽取出中的短語中匹配維度詞,按照匹配出的維度詞,把短語對映到相遇到維度。
2)存在的問題:乙個短語中如果有多個維度詞時,則劃分到了多個維度,這裡把所有的維度詞都當成等權重處理的。
2.2.5劃分正負評價短語
1)根據情感詞典的劃分:
使用正、負情感詞典及否定詞詞典在短語中匹配,若匹配上正面情感詞則劃分到正向評價中,若匹配上負面情感詞則劃分到負向評價中。若匹配上正面情感詞且匹配上否定詞,則劃為負向評價,若匹配上負向情感詞且匹配上否定詞,則劃分為正向評價詞。若不符合這幾種情況,則轉入評分劃分。(否定詞只有在情感詞之前才生效)
2)存在的問題:
乙個短語中如果有兩個極性相反的情感詞,現在是直接去掉。這個辦法有點粗,應該再進一步優化。
3.1 資源的補充
1)情感詞典的補充(用於劃分正負短語)
2)同義詞典的建立(用於合併)
3)模板的完善(覆蓋率與邊界)
4)無意義詞典的建立(用於過濾)
3.2 相關細節的處理
1)多模式匹配演算法的改進
在匹配情感詞和維度詞階段,都是使用的的wu-manber演算法,但此演算法在存在大量的模式串時效能下降太快。可以使用ac自動機(trie樹)取代。
3.3 邊界問題
1)由於直接採取詞性模板匹配的方法,有時候會出現邊界切分不好的現象,對於此問題,可以考慮使用詞的左右熵或互資訊處理下。這樣邊界可能會好一些
1、使用stanford parser對句子解析後,根據解析後的語法資訊能更準確的找出評價短語。
2、使用序列標註模型,例如 hmm,crf
資訊抽取 短語提取
短語提取 在資訊抽取領域,另一項重要的任務就是提取中文短語,也即固定多字詞表達串的識別。短語提取經常用於搜尋引擎的自動推薦,文件的簡介生成等。其顆粒度介於單詞和句子之間,nlp一系列任務的顆粒度排序如下 短語的顆粒度 短語提取 利用互資訊和左右資訊熵,我們可以輕鬆地將新詞提取演算法拓展到短語提取。只...
量化評價和質化評價舉例 量化評價和質性評價異同點
量化評價和質性評價在理論上有分歧,但它們不是兩種對立的方法,在課程評價中是非常必要和不可缺少的。它們的分歧能在課程評價實踐中統一起來,互相彌補各自的缺點。1.量化評價的特點 量化評價的優點是邏輯性強,標準化和精確化程度較高,能對課程現象的因果關係作出精確分析,結論也更為客觀和科學。然而,影響制約教育...
flash 與隨機性 隨機抽取
有時候做 程式的時候會經常希望隨機抽取乙個或者多個數,這時候問題就會因此而產生。在一些時間裡面,看了一些資料關於隨機性這個東西其實很有實用價值。不確定性,如隨機數,隨機移動等等。今天做了簡單的實驗,方法不唯一,也有很多更加完善的方法。但目前還是先把知道的記錄下來。題目一 怎樣隨機抽取乙個數?題目二 ...