1.基於字串匹配和規則的分詞方法(機械分詞法)
與字典的進行匹配:存在的問題是對詞典的依賴性較大,分詞的效果的詞義偏差較大,不能識別一些新的登陸詞
其中按照是否與詞性標註相結合,又可以分為單純分詞方法和與標註相結合的方法。
2.基於統計的分詞方法:只需要對語料中的字資訊進行統計,不需要切分詞典。
主要常用的統計量和統計模型:互資訊、最大熵模型、隱馬爾科夫模型等。
存在的問題是:仍然存在著很大的分詞歧義。
利用詞和詞之前的聯合出現概率作為分詞判斷的資訊。
3.基於理解的分詞方法
基本思想是:在分詞的同時進行語法、語義分析、利用句法資訊和語義資訊來解決歧義的現象。
a.基於隱馬爾可夫模型的詞標註中文分詞法
b.基於層疊的因馬爾科夫模型的漢語詞法分析方法
c.神經網路方法
d.深度學習的方法
4.基於深度學習的短文本分析
準確率:所有**正確的樣本/總的樣本
精準率:將正類**為正類/所有**為正類
召回率:將正類**為正類/所有正真的正類
f1值:準確率召回率2/(正確率+召回率)
1.word2vector
2.標籤雲
3.傾向性分析
4.結巴分詞
結巴分詞支援的三種分詞模式:
1)精確模式:適合文字分析
2)全模式:把句子中的所有可以成詞的詞語都掃瞄出來,速度很快,但是不能解決歧義
3)搜尋引擎模式名字啊精確模式的基礎上,在對長詞進行切分,提高召回率,適合搜尋引擎分詞。
基礎文字分析專案
因此文字分析通常是作為一些專案的子專案來進行的 文字分析包含很多內容如 分詞,分類,錯別字糾正,輸入 等 功能需求 對於分詞 演算法以一段文字作為輸入,演算法輸出分詞後的文字,如 輸入 基礎文字分析專案 演算法會輸出 基礎 文字 分析 專案 對於分類 演算法以一段文字作為輸入,演算法輸出文字的主題分...
文字分類知識
文字分類是在預定義的分類體系下,根據文字的特徵 內容和屬性 將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式,將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此,文字分類有兩個關鍵問題 乙個是文字的表示,另乙個就是分類器的設計。輸入文件 預處理 文字表示 分類...
python,文字分析
記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...