演算法步驟:
獲取到需要摘要的文章
對該文章進行詞頻統計
對該文章進行分句 根據中文的標點符號,一般我們採用。,?進行分句
計算分句與文章之間的余弦相似度
**實現:
library(tm)
library(tmcn)
library(rwordseg)
docs
dirsource(
c("sogouc.mini/samplenamed/c000007", "sogouc.mini/samplenamed/c000008",
"sogouc.mini/samplenamed/c000010", "sogouc.mini/samplenamed/c000013",
"sogouc.mini/samplenamed/c000014", "sogouc.mini/samplenamed/c000016",
"sogouc.mini/samplenamed/c000020", "sogouc.mini/samplenamed/c000022",
"sogouc.mini/samplenamed/c000023", "sogouc.mini/samplenamed/c000024")),
readercontrol = list(
language='utf-8'
))#使用矩陣的方式計算
cosinedist
(x)#字串分隔函式
strsplits
(x, splits, ...)
return(x[nchar(x)>3])
}mainsegs
name=c(na),
seg1=c(na),
seg2=c(na),
seg3=c(na)
);for(i in
1:length(docs)) )
mainsegs[i, 1]
mainsegs[i, 2:4]
}
R中如何利用余弦演算法實現相似文章的推薦
推薦 recommended 介紹好的人或事物,希望被任用或接受。在目前的資料探勘領域,推薦包括相似推薦以及協同過濾推薦。相似推薦 similar recommended 當使用者表現出對某人或者某物感興趣時,為它推薦與之相類似的人,或者物,它的核心定理是 人以群分,物以類聚。library tm ...
利用R語言如何進行文字比較演算法 LD演算法
在日常應用中,文字比較是乙個比較常見的問題。文字比較演算法也是乙個老生常談的話題。文字比較的核心就是比較兩個給定的文字 可以是位元組流等 之間的差異。目前,主流的比較文字之間的差異主要有兩大類。一類是基於編輯距離 edit distance 的,例如ld演算法。一類是基於最長公共子串的 longes...
Boosting演算法與R的實現
boost也分為許多種類,如adaboost gradient boost xgboost等,gradient boost顧名思義,與梯度脫不開關係,對梯度有了解或學過數值計算的人應當知道,負梯度方向是函式下降最快的方向。在有監督機器學習中,我們的目標是學得使得損失函式最小的模型,因此梯度下降演算法...