原 基於體裁的中文網頁自動分類的研究與實現

2021-04-16 13:24:39 字數 716 閱讀 5176

版權說明:本**為原創性文章,已經公開發表在http://www.*****.edu.cn

**摘要:

基於體裁的中文網頁自動分類的研究與實現

e-mail

[email protected]

要:為了優化網際網路資訊檢索系統,使其能更準確的從結果集中區分出滿足使用者需要的頁面,本文提出了一種對網頁按體裁分類的方法。該方法以網頁的標籤、形態、內容、詞性作為體裁特徵,並以特徵項的頻率、集中度和分散度三者結合為衡量標準,利用自動特徵選取技術,從中選取出有價值的特徵項;然後採用基於相似度加權的

knn分類演算法對網頁按體裁進行自動分類;最後設計和實現了分類系統,並進行了實驗測試與結果分析。結果表明:分類器開放測試的平均精度達到

80%。

網頁分類;體裁;特徵提取;

k近鄰演算法

中圖分類號:tp391

文獻標識碼:a

基於svm的中文文字自動分類系統

首先介紹一下流程 1.先使用中科院的分詞器ictlas對訓練集進行分詞 2.將所有的詞構建成乙個字典,以label item的形式,後面svm要用到。如 1 中國 3.提取特徵詞,由於並不是每個詞都是有用的,因此要提取出特徵詞,主要提取名詞,動詞,動名詞,和使用者自定義的詞。由於採用了中科院的分詞演...

基於svm的中文文字自動分類系統

首先介紹一下流程 1.先使用中科院的分詞器ictlas對訓練集進行分詞 2.將所有的詞構建成乙個字典,以label item的形式,後面svm要用到。如 1 中國 3.提取特徵詞,由於並不是每個詞都是有用的,因此要提取出特徵詞,主要提取名詞,動詞,動名詞,和使用者自定義的詞。由於採用了中科院的分詞演...

NCrawler爬取中文網頁時亂碼問題的解決方法

查詢原因,發現在ncrawler.htmlprocessor專案下htmldocumentprocessor.cs中的process 方法使用htmldoc.detectencoding reader 進行頁面編碼檢測,出現中文亂碼情況。改用httpwebresponse中返回的characters...