《數學之美》拾遺 TF IDF

在學習機器學習的過程中，我寫了簡單易學的機器學習演算法的專題，依然還有很多的演算法會陸續寫出來。網上已經有很多人分享過類似的材料，我只是通過自己的理解，想盡可能用一種通俗易懂的方式講出來。在不斷學習的過程中，陸陸續續補充了很多的知識點，在學習吳軍老師的《數學之美》的過程中，也補充了很多我之前遺漏的知識點，吳軍老師已經在《數學之美》上把問題講得很清楚，我在這裡只是再增加一些我對這些問題的認識。專題的順序與原書不一致，其中的原因是我在學習機器學習的過程中遇到了問題會翻閱一些書，所以，順序與我學習時遇到的問題是相關的。藉此機會，感謝那些默默支援我的人，我會更加努力寫出高質量的博文。

首先解釋下tf-idf的全稱，tf-idf全稱是term frequency / inverse document frequency，全稱的意思為詞頻、逆文字頻率。

tf是指乙個詞在一篇文章中出現的頻率。單純使用tf將會出現一些問題，問題是一些通用的詞對於主題並沒有太大的作用，反倒是一些出現頻率較少的詞才能夠表達文章的主題。所以權重的設計必須滿足：乙個詞**主題的能力越強，權重越大，反之，權重越小。

對於乙個處理好的詞項-文件矩陣：

tf表示詞在一篇文章中出現的頻率。這裡我們假設每篇文章的詞的個數為

idf的公式為：

去掉了停止詞「and」，「edition」，「for」，「in」，「little」，「of」「the」，「to」。我們可以得到以下的詞項-文件矩陣：

最終的結果為：

matlab原始碼

tf_idf函式

function [ datamade ] = tfidf( dataset )
[m,n] = size(dataset);%計算dataset的大小，m為詞的個數，n為標題的個數
rowsum = [8,6,19,6,8,19,6,4,18];
colsum = sum(dataset,2);% 每個詞在不同標題中出現的總和
datamade = zeros(m,n);% 構造乙個一樣大小的矩陣，用於儲存tf-idf值
for i = 1:m
tempidf = log2(n./colsum(i,:));
for j = 1:n
datamade(i,j) = (dataset(i,j)./rowsum(:,j))*tempidf;
endend
end

主函式

%% tf_idf
% load data
% 注意每一列為標題，每一行為詞
dataset = [0	0	1	1	0	0	0	0	0
0	0	0	0	0	1	0	0	1
0	1	0	0	0	0	0	1	0
0	0	0	0	0	0	1	0	1
1	0	0	0	0	1	0	0	0
1	1	1	1	1	1	1	1	1
1	0	1	0	0	0	0	0	0
0	0	0	0	0	0	1	0	1
0	0	0	0	0	2	0	0	1
1	0	1	0	0	0	0	1	0
0	0	0	1	1	0	0	0	0
];% 計算tf-idf值
data = tfidf(dataset);

1、在求解tf時，tf的分母應該是整個文字的長度，可參見維基百科

2、在求解idf時，取對數的

1、《數學之美》吳軍著. 第11章如何確定網頁和查詢的相關性. p105-110.

2、 small example

《數學之美》拾遺 TF IDF

英語拾遺之數字

asp知識拾遺

Linux同步拾遺

《數學之美》拾遺 TF IDF

英語拾遺之數字

asp知識拾遺

Linux同步拾遺

相關推薦