先檢查輸入的單詞是否分割正確,再進行統計。
注意點:
單詞大小寫不敏感
單詞長度大於2且小於等於10,以非字母分割。
兩個檔案的單詞總量如果有相同的單詞,只統計一次。
#include
#include
#include
#include
#include
#include
using
namespace std;
const
int n =
105;
unordered_set st[n]
;void
to_lower
(string &str)
intmain()
while
(k < s.
size()
&&!isalpha
(s[k]
)) k++
; j = k;}}
}int m, p, q;
scanf
("%d"
,&m)
;while
(m--
)printf
("%.1f%%\n"
, ss*
100.0
/(st[p]
.size()
+st[q]
.size()
-ss));
}return0;
}
7 44 基於詞頻的檔案相似度(30 分)
本題目要求實現乙個簡化的熱門話題推薦功能,從大量英文 因為中文分詞處理比較麻煩 微博中解析出話題,找出被最多條微博提到的話題。輸入格式 輸入說明 輸入首先給出乙個正整數n 105 隨後n行,每行給出一條英文微博,其長度不超過140個字元。任何包含在一對最近的 中的內容均被認為是乙個話題,輸入保證 成...
7 44 基於詞頻的檔案相似度 (30 分
實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入格式 輸入首先給出正整數n 100 為檔案總數。隨後按以下格式給出每個檔案的內容 首先給出檔...
7 44 基於詞頻的檔案相似度 30分
實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入格式 輸入首先給出正整數n 100 為檔案總數。隨後按以下格式給出每個檔案的內容 首先給出檔...