文字分析基礎知識

2021-09-13 16:31:30 字數 777 閱讀 7587

1.基於字串匹配和規則的分詞方法(機械分詞法)

與字典的進行匹配:存在的問題是對詞典的依賴性較大,分詞的效果的詞義偏差較大,不能識別一些新的登陸詞

其中按照是否與詞性標註相結合,又可以分為單純分詞方法和與標註相結合的方法。

2.基於統計的分詞方法:只需要對語料中的字資訊進行統計,不需要切分詞典。

主要常用的統計量和統計模型:互資訊、最大熵模型、隱馬爾科夫模型等。

存在的問題是:仍然存在著很大的分詞歧義。

利用詞和詞之前的聯合出現概率作為分詞判斷的資訊。

3.基於理解的分詞方法

基本思想是:在分詞的同時進行語法、語義分析、利用句法資訊和語義資訊來解決歧義的現象。

a.基於隱馬爾可夫模型的詞標註中文分詞法

b.基於層疊的因馬爾科夫模型的漢語詞法分析方法

c.神經網路方法

d.深度學習的方法

4.基於深度學習的短文本分析

準確率:所有**正確的樣本/總的樣本

精準率:將正類**為正類/所有**為正類

召回率:將正類**為正類/所有正真的正類

f1值:準確率召回率2/(正確率+召回率)

1.word2vector

2.標籤雲

3.傾向性分析

4.結巴分詞

結巴分詞支援的三種分詞模式:

1)精確模式:適合文字分析

2)全模式:把句子中的所有可以成詞的詞語都掃瞄出來,速度很快,但是不能解決歧義

3)搜尋引擎模式名字啊精確模式的基礎上,在對長詞進行切分,提高召回率,適合搜尋引擎分詞。

基礎文字分析專案

因此文字分析通常是作為一些專案的子專案來進行的 文字分析包含很多內容如 分詞,分類,錯別字糾正,輸入 等 功能需求 對於分詞 演算法以一段文字作為輸入,演算法輸出分詞後的文字,如 輸入 基礎文字分析專案 演算法會輸出 基礎 文字 分析 專案 對於分類 演算法以一段文字作為輸入,演算法輸出文字的主題分...

文字分類知識

文字分類是在預定義的分類體系下,根據文字的特徵 內容和屬性 將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式,將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此,文字分類有兩個關鍵問題 乙個是文字的表示,另乙個就是分類器的設計。輸入文件 預處理 文字表示 分類...

python,文字分析

記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...