中文NLP知識總結

2021-09-03 03:00:15 字數 1693 閱讀 1887

一、詞袋模型:分詞、去停用詞、消除數字、英文,得到若干詞語的集合。

二、詞典:詞語和其索引id的一一對應關係。假設共有n個詞語。

三、one-hot編碼: 在詞典基礎上,分詞之後的文章的詞頻向量。可以看成是m*n的單詞-文件矩陣a。a(i,j)=第i篇文章中詞典索引為j的詞語出現的次數,即詞頻tf。

references:

1.   tf-idf本身也存在一些問題;

五、lsi/lsa: lsa(lsi)使用svd來對單詞-文件矩陣進行分解。svd可以看作是從單詞-文件矩陣中發現不相關的索引變數(因子),將原來的資料對映到語義空間內。在單詞-文件矩陣中不相似的兩個文件,可能在語義空間內比較相似。

1. lsi詳解

2. 用gensim生成給定語料的tf-idf向量和ilsi向量。

六、plsa: 即概率潛在語義分析,採取概率方法替代 svd 以解決問題。其核心思想是找到乙個潛在主題的概率模型,該模型可以生成我們在文件-單詞矩陣中觀察到的資料。特別是,我們需要乙個模型 p(d,w),使得對於任何文件 d 和單詞 w,p(d,w) 能對應於文件-單詞矩陣中的那個條目。lsa和plsa的目的就是從一群文件集中找到潛在的語義因子latent factors。由於提取到的主題詞比文件中的詞的數量要少很多,而且我們在學習的過程中不需要知道文件的型別資訊,所以說lsa和plsa是無監督的特徵降維方法。

1. plsa及em演算法

2. em演算法詳解

3. plsa模型再理解

七、lda : plsa的貝葉斯進化版。區別在於:文件d產生主題z(準確的說,其實是dirichlet先驗為文件d生成主題分布θ,然後根據主題分布θ產生主題z)的概率,主題z產生單詞w的概率都不再是某兩個確定的值,而是隨機變數。lda在plsa的基礎上給這兩引數加了兩個先驗分布的引數(貝葉斯化):乙個主題分布的先驗分布dirichlet分布 ɑ,和乙個詞語分布的先驗分布dirichlet分布β。

lda使用場景:推薦系統

1. 深入理解lda 和plsa

2. lda模型的使用

八、word2vec: 是word embedding的一種,學習乙個從高維稀疏離散向量到低維稠密連續向量的對映。該對映的特點是,近義詞向量的歐氏距離比較小,詞向量之間的加減法有實際物理意義。是one-hot 編碼的公升級版,有cbow+skip-gram.兩種訓練方式。最終得到每個詞語的word2vec 詞向量。

1 .word2vec 使用

九、nlp語言模型:語言模型包括文法語言模型和統計語言模型。一般我們指的是統計語言模型。用一句簡單的話說,就語言模型就是計算乙個句子的概率大小的這種模型。有什麼意義呢?乙個句子的打分概率越高,越說明他是更合乎人說出來的自然句子。常見的統計語言模型有n元文法模型(n-gram model)。語言模型是乙個基於概率的判別模型,它的輸入是一句話(單詞的順序序列),輸出是這句話的概率,即這些單詞的聯合概率(joint probability)。

1. n-gram模型

十、上古時期的演算法:最大熵模型,hmm ,crf。

1. 最大熵模型

2. 隱馬爾可夫模型

3. hmm解決三個實際問題

4. 條件隨機場理解

十一、 doc2vec :和word2vec類似。每個段落/句子都被對映到向量空間中,可以用矩陣的一列來表示。每個單詞同樣被對映到向量空間,可以用矩陣的一列來表示。然後將段落向量和詞向量級聯或者求平均得到特徵,**句子中的下乙個單詞。

NLP基礎知識

1 聲學識別模型 將從麥克風收集來的聲音,進行一些訊號處理,將語音頻號轉化到頻域,從每10毫秒的語音中提出乙個特徵向量,提供給後面的聲學模型。聲學模型負責把音訊分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文字。2 pomdp框架 3 ap...

NLP基礎知識

英文用nltk,中文用jieba,比較難處理的時候可能要借助正規表示式 2 derivation引申 影響詞性 walking walk walked walk went歸一成go are歸一成be 比如原本是are are,is is 標註後are v be,is v be 比如中文的 的,地,得...

nlp 中文資料預處理

資料載入 預設csv格式 import pandas as pd datas pd.read csv test.csv header 0,index col 0 dataframe n datas data.to numpy ndarray 轉成numpy更好處理 個人喜好 去除空行def dele...