中文分詞之後需要對資料進行特徵構造,也可以說成特徵轉換。再處理文字資料時,基於「向量空間模型」這一概念,可以通過詞袋模型、n-gram模型、詞向量來進行特徵構造。
(1)向量空間模型(vsm:vector space moudle )
向量空間模型把文字內容的處理簡化為向量空間中的運算,並且以空間上的相似度表達語義的相似度,直觀易懂。
(2)詞袋模型
在傳統的詞袋模型中,對於每乙個詞採用one-hot稀疏編碼的形式。假設目標語料中共有n個唯一確認的詞,那麼需要乙個長度為n的詞典,詞典的每乙個位置表達了文字**現的某乙個詞。在某一種特徵表達下,比如詞頻、binary、tf-idf等,我們可以將任意詞或者文字表達放在乙個n維的向量空間裡。
例如,通過求每乙個單詞的tf-idf值,就可以用tf-idf值代替單詞,將文字轉換成乙個向量。
tf-idf演算法,tf意思是詞頻(term frenquency),idf意思是逆文字頻率指數(inverse document frenquency)。它是一種用於資訊檢索和資料探勘的常用加權技術,用以評估一字詞對於檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。
具體步驟如下:
● 將所有分詞後的文字,按單詞為最小單位去重,構成乙個詞彙表。
● 計算詞彙表中每乙個單詞的tf-idf值,可以將tf-idf值較小詞直接提出,這樣可以減少向量的維度。
● 用詞彙表將每乙個文字轉化成維度一樣的向量,並且非零值即為單詞所對應的tf-idf值。
(3)n-gram模型
n-gram模型是一種統計語言模型,其作用是根據前n-1個item來**第n個item。n-gram被廣泛地應用於語音識別、輸入法、分詞等任務,當n分別為1、2、3時,有分別稱為一元語法(unigram)、二元語法(bigram)與三元語法(trigram)。可用n-gram模型來構造分類任務的資料特徵。
(4)詞向量
當特徵資料集構造完成後,可能會出現特徵矩陣過大,從而導致計算量大,訓練時間長等一系列問題,因此降低特徵矩陣維度也是必不可少的。機器學習中常見的特徵降維方法有:l1懲罰項的模型、主成分分析法(pca)、線性判別分析(lda)。pca和lda有很多的相似點,它們的共同原理是將原始樣本對映到維度更低的樣本空間中。pca是一種無監督的降維方法,而lda是一種有監督的降維方法。在自然語言處理中常用的是主題模型,其兼備了降維和語義表達的效果,比如lsi、lda、plsa、hdp等統計主題模型。這些模型尋求在低維空間(不同主題)上的表達,在降低維度的同時,盡可能保留原有文字的語義資訊。主題模型在處理中長度文字分類任務時非常有效。
文字蘊含日記1 中文分詞
1 什麼是分詞 分詞是指將連續的字序列按照一定的規範重新組合成詞序列的過程。簡而言之,就是將乙個句子中的字重新劃分組合成詞。2 為什麼要強調中文分詞技術 之所以特地強調中文分詞,是因為中文在行文上的特殊性。以英文為代表的拉丁語系語言,英文以空格作為天然的分隔符,而中文詞語之間沒有分隔。古代漢語中除了...
文字蘊含日記2 注意力機制
注意力attention,人類在觀察周圍環境時,總會優先注意到一些部分來獲取自己需要的資訊,這些部分就代表了周圍環境的某種描述。而注意力機制通過學習不同區域性的重要性,再結合起來。對attention常見的有三種理解 1 從數學公式和 實現上attention可以理解為加權求和 2 從形式上atte...
學習日記 3
今天很早同學就來叫我去自修了,休息了這麼多天,是應該開始勤奮了。不過去到教學樓真的有點後悔,那裡在施工,嘈還不說,連電都停了,但既然去到也就在那裡自修了。開了窗,偶爾有點風,但那只是偶爾,更多的時間是一點風都沒有,悶熱 擦掉桌面和椅上的一層灰塵,就開始看書了。今天看了很多,也很累,現在就回憶一下 看...