Stanford segmenter的簡單學習

2021-09-03 10:46:57 字數 1561 閱讀 3754

這段時間開始學習中文分詞的原理,其目的也在於從最基礎的地方開始自然語言處理的學習。雖然中文分詞經過10多年的研究,已經很難在上面開花結果了。但我個人覺得這是最能鍛鍊自然語言基礎的地方。從hmm模型、maxent模型到crfs模型,中文分詞的研究,濃縮了自然語言處理的發展史。

使用的過程很簡單:

第二步:執行segdemo,run as-> run configurations,執行需要傳入引數,test.simp.utf8

由於stanford-sementer占用的記憶體比較大,所以需要設定vm arguments,不然就會超記憶體。

好了,接下來就是見證奇蹟的時刻了:

testfile=test.simp.utf8

serdictionary=data/dict-chris6.ser.gz

sighancorporadict=data

inputencoding=utf-8

sighanpostprocessing=true

loading classifier from d:\workspace_vancl\stanfordsegmenter\data\ctb.gz ... loading chinese dictionaries from 1 files:

data/dict-chris6.ser.gz

loading dictionaries from data/dict-chris6.ser.gz...done. unique words in chinesedictionary is: 423200

done [26.8 sec].

info: tagaffixdetector: usechpos=false | usectbchar2=true | usepkchar2=false

info: tagaffixdetector: building tagaffixdetector from data/dict/character_list and data/dict/in.ctb

loading character dictionary file from data/dict/character_list

loading affix dictionary from data/dict/in.ctb

面對 新 世紀 , 世界 各 國 人民 的 共同 願望 是 : 繼續 發展 人類 以往 創造 的 一切 文明 成果 , 克服 20 世紀 困擾 著 人類 的 戰爭 和 貧困 問題 , 推進 和平 與 發展 的 崇高 事業 , 創造 一 個 美好 的 世界 。

crfclassifier tagged 80 words in 1 documents at 134.45 words per second.

看到這個結果,其實也好猜了,需要分詞的源語料就是傳入的引數檔案test.simp.utf8。

看到了結果,就可以關聯到源**,檢視分詞建模的細節了。就像騎自行車一樣,先騎一騎,有乙個直觀的印象,有興趣了,接下來的事情就好辦了!

其實crfs在《數學之美》中做的事情是句法分析,這也是自然語言處理的基礎,但是鼎鼎有名的stanford-parser用的卻不是crfs,而是概率上下文無關文法(pcfg)。

密碼學簡單介紹

本文簡要地介紹了現代密碼學的一些基礎理論,供參考。1 加密技術概述 乙個密碼系統的安全性只在於金鑰的保密性,而不在演算法的保密性。對純資料的加密的確是這樣。對於你不願意讓他看到這些資料 資料的明文 的人,用可靠的加密演算法,只要破解者不知道被加密資料的密碼,他就不可解讀這些資料。但是,軟體的加密不同...

形態學簡單總結

腐蝕的作用 腐蝕是一種消除邊界點,使邊界向內部收縮的過程。可以用來消除小且無意義的物體。膨脹作用 膨脹是將與物體接觸的所有背景點合併到該物體中,使邊界向外部擴張的過程。可以用來填補物體中的空洞。閉運算定義 先膨脹後腐蝕 閉運算作用 閉運算用來填充物體內細小空洞 連線鄰近物體 平滑其邊界的同時並不明顯...

Python自學 簡單學 元組

元組 tuple 類似於向量,元組的元素不能修改。元組寫在小括號裡,元素之間用逗號隔開,和向量寫法一致,元組中的元素可以不同 a 1997 2019 china math print a,type a len a 1997 2019 china math class tuple 4 元組類似字串,可...