二、文字分類
三、文字聚類
文字分類的定義
\color\textbf
文字分類的定義
文字分類在資訊檢索中的應用
\color\textbf
文字分類在資訊檢索中的應用
新聞分類
\color\textbf
新聞分類
情感分類
\color\textbf
情感分類
情感分析:自動對觀點的極性進行分類:
正面(positive)、中性(neutral)、負面(negative)
有時強度也是很重要的: weakly negative、strongly negative
有用的特徵
單字詞(unigrams),雙字詞( bigrams)
詞性標註
形容詞
文字聚類的定義
\color\textbf
文字聚類的定義
文字聚類在資訊檢索中的應用
\color\textbf
文字聚類在資訊檢索中的應用
詞彙聚類
\color\textbf
詞彙聚類
檢索結果聚類
\color\textbf
檢索結果聚類
學習方法
\color\textbf
學習方法
自動分類的一般過程
\color\textbf
自動分類的一般過程
rocchio的性質
\color\textbf
rocchio
的性質
k個近鄰(nearest-neighbor)
\color\textbf
k個近鄰(
nearest-neighbor)
相似測度
\color\textbf
相似測度
貝葉斯分類
\color\textbf
貝葉斯分類
文字分類中的概率估計
\color\textbf
文字分類中的概率估計
平滑
\color\textbf
平滑 如果沒有任何先驗知識p = 1/|v|,m = |v|
演算法流程
\color\textbf
演算法流程
step1:初始化k個簇中心;
step2:對於每個文件向量,計算該文件向量與k個類中心的距離,選擇距離最小(相似度最大)的簇將該文件分入該簇;
step3:重新計算k個簇的中心,中心為該簇內所有點的算術平均。
step4:如果簇變化不大或者滿足某種退出條件(達到最大迭代次數、滿足某種目標函式等),那麼結束聚類,否則返回step2
2 2 文字分類專案
中文語言的文字分類技術和流程 文字預處理 1.選擇處理的文字的範圍 對於分類或聚類任務,往往將整個文件作為處理單位 對於情感分析 文件自動文摘或資訊檢索,段落或章節可能更合適 2.建立分類文字語料庫 目前比較好的中文分類語料庫有復旦大學譚松波中文文字分類語料庫和搜狗新聞分類語料庫 訓練集語料 分好類...
NLP(五)文字分類
1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...
NLP NO4 文字分類
載入停用詞,txt內容可以隨專案進行改變 stopwords pd.read csv stopword.txt index col false quoting 3,sep t names stopwords encoding utf 8 stopwords stopwords stopwords v...