文章內容相關性統計
左直拳內容相關性我能想到的是比較兩篇文章提取出來的標籤。
每篇文章都可以提取出一些出現頻率比較高的詞語,就是標籤,存放在資料庫裡。並且存放的時候已經按出現頻率從高到低排列,頻率高的標籤儲存在前面,低的在後面。假定標籤表結構如下
pagetag
字段含義
型別id
inttagid
標籤id
intpageid
文章id
int則對於同一篇文章(pageid相同)來講,出現頻率高的標籤,id一定小於頻率低的標籤對應的id。
比較的思路是,如果兩篇文章,相同標籤的頻率越高,數量越多,則說明這兩篇文章的相似度就越高。這好象涉及到乙個叫「權重」之類的東西。不過我不知道什麼叫權重。
select
a.pageid,
sum(b.row)
as weight from
pagetag
as a,
(select
tagid,row_number()
over
(order
by id desc
)as row
from
pagetag
where
pageid=
某篇文章的id)
as b
where
a.pageid<>
某篇文章的id
anda.tagid=b.tagid
group
by a.pageid
結果就可以將文章和相應的相似度列出來了。weight越大,相似度越高。
主要用了row_number()
,並且order
by id desc
,所以頻率越高的,row就越大,最後合計的sum(row)as weight就越大。同時,如果兩篇文章相同的標籤很多,合計數也跟著大,所以這個weight應該可以反映權重。
注:這種演算法在實際應用中效果不佳,除了提取出來的標籤準確度不是很高外,演算法本身也不太完善。比如說,一篇文章很長,提取出來的標籤有10幾個,而短的文章有的只有2、3個,這時候,長文章的標籤權重普遍大於短文章的,統計出來就有偏差。
丟擲我的吊,來吸引您的玉。
文章內容相關性統計
文章內容相關性統計 左直拳內容相關性我能想到的是比較兩篇文章提取出來的標籤。每篇文章都可以提取出一些出現頻率比較高的詞語,就是標籤,存放在資料庫裡。並且存放的時候已經按出現頻率從高到低排列,頻率高的標籤儲存在前面,低的在後面。假定標籤表結構如下 pagetag 字段含義 型別id inttagid ...
python 實現文章內容統計
實現對目標檔案所有字元統計,單獨不重複字元統計,並通過字典列印以及寫入excel,以檔案的形式輸出統計的結果。data read data 為 read 返回的結果 generate excel data generate excel 函式傳入引數 data for key,value in dat...
統計 相關性與自相關性
相關係數度量指的是兩個不同事件彼此之間的相互影響程度 而自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象的講就是度量自己過去的行為對自己現在的影響。自相關,也稱 序列相關。是乙個訊號於其自身在不同時間點的互相關。非正式地來說,它就是兩次觀察之間的相似度對它們之間的時間差的函式。它是找出重...