簡單的分類模型

2021-04-18 00:53:41 字數 2086 閱讀 9791

分類模型是文字分類的核心技術,大體上文字分類模型可以分為兩種:基於規則的文字分類和基於統計的文字分類。

在基於規則的分類技術中首先需要根據某種假設 建立起可用於分類的規則,該規則包括了文字的表示方法,類別的表示方法,文字與類別的對映方式等等,之後通過訓練過程來完成規則的完善和調整,訓練後則可 以使用該規則來決定文字的類別完成分類。

決策樹decision tree神經網路,支援向量機support vector machine等都是屬於基於規則的分類方法(有爭議,因為明顯svm是基於統計學習理論的,但同時svm跟nn關係密切).

基於規則的分類方法理論基礎 強,合理性高,而且分類的規則易於為人們所理解,也易於改寫成其他形式。但基於規則的分類方法實用性很差。這是因為現實中的資料集頗為龐大,在此種情況 下,訓練時規則的建立調整過程效率會很低。應用規則完成分類的效率也較差,此時基於規則的分類方法往往顯得力不從心。

在基於統計的分類方法中,或者依據某種統計後得到的客觀規律,或者採用某種統計學中的定律,來完成分類器的建立工作,該種方法中的訓練過程多為訓練集上的 某種統計和計算過程得到某些可以代表文字與類別之間關係的資料,在分類時分類器給出的通常為某種概率結果,比如樸素貝葉斯***** bayes,模型向量空間模型vector space model, k近鄰方法k-nearest neighbor。

基於統計的分類方法理論基礎不強,但實用性強。

(1)基於tfidf的rocchio演算法

rocchio演算法**於向量空間模型理論,向量空間模型vector spacemodel的基本思想為採用向量來表示乙個文字之後的處理過程,就可以轉化為空間中向量的運算。基於tfidf的rocchio是這種思想的一 種實現方法,其中以乙個n維向量來表示文字,向量維數n即特徵數,向量分量是特徵的某種權重,表示該權值的計算方法稱為tfidf方法。通過tfidf方 法,首先將訓練集中的文字表示為向量,然後生成類別特徵向量,即可以用來代表乙個類別的向量,類別特徵向量取值為該類中所有文字向量的平均值。 rocchio演算法訓練的過程,其實就是建立類別特徵向量的過程,分類的時候給定乙個未知文字,先生成該文字的向量,然後計算該向量與各類別特徵向量的相 似度,最後將該文本分到與其最相似的類別中去。向量的相似度度量方法有兩種,以x,y代表向量,xi,yi代表向量分量,歐幾里德距離和cosin。總體 來看rocchio演算法簡單易行執行速度尤其是分類速度較快。

(2)樸素貝葉斯

貝葉斯分類是一種統計學分類方法,它基於貝葉斯定理,可以用來**類成員關係的可能性,給出文字屬於某特定類別的概率,分類時根據**結果將該樣本分到概 率最高的類別中去即可。樸素貝葉斯分類模型訓練的過程其實就是統計每乙個特徵在各類中出現規律的過程,從理論上,講貝葉斯分類的出錯率最小,就試驗結果來 看,樸素貝葉斯在大型的資料集上表現出來難得的速度和準確度。

(3)決策樹decision tree

決策樹是乙個類似於流程圖的樹結構,其中每個節點代表乙個屬性上的測試,每個分支代表乙個測試輸出,最後的葉結點代表類別。決策樹方便改寫為形如if- then的分類規則,易於理解。決策樹的核心演算法是一種貪心演算法,它以自頂向下的方式在訓練集的基礎上構造決策樹之後,取未知文字的屬性,在決策樹上測試 路徑由根結點到葉結點,從而得到該文字的所屬類別。決策樹的演算法有c4.5(發展於id3)cart,chaid等,他們的區別在於構造決策樹與樹枝剪除 的演算法細節不同。決策樹可以很好的抵抗雜訊,最大的缺點在於不適應大規模的資料集,此種情況下決策樹的構造會變得效率低下。

(4)k近鄰分類k-nearest neighbor

knn的思想也**於向量空間模型,同樣採用將文字轉化為向量的思想。knn是一種基於模擬的分類方法,在訓練的過程中,knn會生成所有訓練例的特徵向 量,並將其儲存下來。給定乙個未知文字,首先生成它的特徵向量之後,knn會搜尋所有的訓練例,通過向量相似度比較,從中找出k個最接近的訓練例,然後將 未知文字分到這k個近鄰中最普遍的類別中去,相似度可以通過歐幾里德距離或cosin來度量根據

knn是一種懶散的方法,即它沒有學習過程,只是存放所有的訓練例直到接到未知文字的時候才建立分類。knn的訓練過程較快,而且可以隨時新增或更新訓練 例來調整。但它分類的開銷會很大,因為需要很大的空間來儲存訓練例,而且分類效率很差,有看法認為在小資料集上knn的表現優異。

(5)支援向量機(svm)這個不再說了,原來說過很多。svm有良好的泛化性,分類效果也比較顯著,缺點就是速度比較慢,不適合大型資料

分類模型的評價

假如某個班級有男生80人,女生20人,共計100人。目標是找出所有女生。現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了。評估 evaluation 下他的工作。1 accuracy 準確率 0 1損失。分類器 某人 正確分類的樣本數 總樣本數,即20 50 1...

分類模型的評價

1 二分類模型 指標計算 備註精準率 precision precision tp tp fp 在所有被 為陽性的測試資料中,真正是陽性的比率。越大越好 召回率 recall recall tp tp fn 在所有實際為陽性的測試資料中,真正是陽性的比率。越大越好 f1score f1score 2...

盒模型的分類

指可以一起在一行內顯示的標籤 常見的行盒標籤 span strong em i img video audio 行盒特點 盒子沿著內容沿伸 在不設定寬度情況下,content區域的長度隨內容長度變化 行盒不能設定寬高 調整行盒的高,應該使用字型大小 行高 字型型別,間接調整,不能直接設定hight值...