7 44 基於詞頻的檔案相似度 30 分

2021-09-29 16:33:46 字數 759 閱讀 5062

先檢查輸入的單詞是否分割正確,再進行統計。

注意點:

單詞大小寫不敏感

單詞長度大於2且小於等於10,以非字母分割。

兩個檔案的單詞總量如果有相同的單詞,只統計一次。

#include

#include

#include

#include

#include

#include

using

namespace std;

const

int n =

105;

unordered_set st[n]

;void

to_lower

(string &str)

intmain()

while

(k < s.

size()

&&!isalpha

(s[k]

)) k++

; j = k;}}

}int m, p, q;

scanf

("%d"

,&m)

;while

(m--

)printf

("%.1f%%\n"

, ss*

100.0

/(st[p]

.size()

+st[q]

.size()

-ss));

}return0;

}

7 44 基於詞頻的檔案相似度(30 分)

本題目要求實現乙個簡化的熱門話題推薦功能,從大量英文 因為中文分詞處理比較麻煩 微博中解析出話題,找出被最多條微博提到的話題。輸入格式 輸入說明 輸入首先給出乙個正整數n 105 隨後n行,每行給出一條英文微博,其長度不超過140個字元。任何包含在一對最近的 中的內容均被認為是乙個話題,輸入保證 成...

7 44 基於詞頻的檔案相似度 (30 分

實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入格式 輸入首先給出正整數n 100 為檔案總數。隨後按以下格式給出每個檔案的內容 首先給出檔...

7 44 基於詞頻的檔案相似度 30分

實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入格式 輸入首先給出正整數n 100 為檔案總數。隨後按以下格式給出每個檔案的內容 首先給出檔...