前文說到使用統計學習方法進行文字分類就是讓計算機自己來觀察由人提供的訓練文件集,自己總結出用於判別文件類別的規則和依據。理想的結果當然是讓計算機在理解文章內容的基礎上進行這樣的分類,然而遺憾的是,我們所說的「理解」往往指的是文章的語義甚至是語用資訊,這一類資訊極其複雜,抽象,而且存在上下文相關性,對這類資訊如何在計算機中表示都是尚未解決的問題(往大里說,這是乙個「知識表示」的問題,完全可以另寫一系列文章來說了),更不要說讓計算機來理解。
利用計算機來解決問題的標準思路應該是:為這種問題尋找一種計算機可以理解的表示方法,或曰建立乙個模型(乙個文件表示模型);然後基於這個模型,選擇各方面滿足要求的演算法來解決。用譚浩強的話說,程式,就是資料+演算法。(啥?你不知道譚浩強是誰?上過學麼?學過c麼?這搗什麼亂?)
既然文字的語義和語用資訊很難轉換成計算機能夠理解的表示形式,接下來順理成章的,人們開始用文章中所包含的較低階別的詞彙資訊來表示文件,一試之下,效果居然還不錯。
統計學習方法進行文字分類(以下就簡稱為「統計學習方法」,雖然這個方法也可以應用到除文字分類以外的多個領域)的乙個重要前提由此產生,那就是認為:文件的內容與其中所包含的詞有著必然的聯絡,同一類文件之間總存在多個共同的詞,而不同類的文件所包含的詞之間差異很大[1]。
進一步的,不光是包含哪些詞很重要,這些詞出現的次數對分類也很重要。
這一前提使得向量模型(俗稱的vsm,向量空間模型)成了適合文字分類問題的文件表示模型。在這種模型中,一篇文章被看作特徵項集合來看,利用加權特徵項構成向量進行文字表示,利用詞頻資訊對文字特徵進行加權。它實現起來比較簡單,並且分類準確度也高,能夠滿足一般應用的要求。[5]
而實際上,文字是一種資訊載體,其所攜帶的資訊由幾部分組成:如組成元素本身的資訊(詞的資訊)、組成元素之間順序關係帶來的資訊以及上下文資訊(更嚴格的說,還包括閱讀者本身的背景和理解)[12]。
而vsm這種文件表示模型,基本上完全忽略了除詞的資訊以外所有的部分,這使得它能表達的資訊量存在上限[12],也直接導致了基於這種模型構建的文字分類系統(雖然這是目前絕對主流的做法),幾乎永遠也不可能達到人類的分類能力。後面我們也會談到,相比於所謂的分類演算法,對特徵的選擇,也就是使用哪些特徵來代表一篇文件,往往更能影響分類的效果。
對於擴充文件表示模型所包含的資訊量,人們也做過有益的嘗試,例如被稱為lsi(latent semantic index潛在語義索引)的方法,就被實驗證明保留了一定的語義資訊(之所以說被實驗證明了,是因為人們還無法在形式上嚴格地證明它確實保留了語義資訊,而且這種語義資訊並非以人可以理解的方式被保留下來),此為後話。
前文說到(就不能不用這種老舊的說法?換換新的,比如previously on "prison break",噢,不對,是previously on text categorizaiton……)統計學習方法其實就是乙個兩階段的解決方案,(1)訓練階段,由計算機來總結分類的規則;(2)分類階段,給計算機一些它從來沒見過的文件,讓它分類(分不對就打屁屁)。
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法筆記三
監督學習的任務就是學習乙個模型,應用這一模型,對給定的輸入,相應的輸出。這個模型一般形式為決策函式 y f x y f x 或者條件概率分布 p y x p y x 監督學習方法又可以分為生成方法和判別方法,所學的模型分被稱為生成模型和判別模型。生成方法由資料學習聯合分布律p x,y 然後求出條件概...
統計學習方法
這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...