# -*- coding: utf-8 -*-import
nltk
from
nltk.book import
*len_text2 =
len(text2)
len_dis_text2 =
len(set(text2))
("在text2中有"
+ str(len_text2) +
"個詞")
("在text2中有"
+ str(len_dis_text2) +
"個不同的詞")
("因為言情**詞彙多樣性得分是8.3,幽默小的詞彙多樣性得分是4.3,所以是幽默**文體中的詞彙更豐富")
text5.collocations()
word_li = [w for
w in
text5 if
len(w) ==
4]fdist = freqdist(word_li)
sorted_word_li =
sorted(fdist.keys(), key
=lambda
x: fdist[x], reverse
=true)
for
w in
sorted_word_li:
"%s\t
%d; "
% (w, fdist[w]),
("")
def
percent(word
,text
):freq =
len([w for
w in
text
if w ==
word
]) *
1.0
/ len(text
)*100
return
freq
(str(round(percent("join",text5),3))+
"%")
自然語言處理第四期
tf idf原理 tf idf 詞頻 逆文字頻率 是一種統計方法,用於評估乙個詞對於乙個文字的重要程度,詞的重要性隨著它在檔案 現的次數成正比,但同時會因為它在多個文字 現的頻率成反比。總的來說,乙個詞語在一篇文章 現的次數越多,同時在所有文件 現的次數越少,就越能代表該文章。tf idf主要是有詞...
第四期題目
1 乙個工人打工7天,工資一天一結,有一根金條是這七天的總工資,問只能掰兩次,而且工資天天發,怎麼掰?2.乙個商人,想做乙個管理員工的資訊的系統,他提供了員工名,和員工工資 開發員就在資料庫中建了乙個表,有員工名和員工工資兩列,系統做好了,商人聽到員工的要求,說要把錢直接打到自己的卡里,商人要求,在...
第四期c語言答案
在字串中找出第乙個只出現一次的字元,如輸入 abaccdeff 則輸出 b 要求時間複雜度為o n 對於乙個字串,請設計乙個高效演算法,找到第一次重複出現的字元,測試樣例 qywyer23tdd 返回 y 乙個整形陣列裡除了兩個數字之外,其他的數字都出現了兩次,請寫程式找出這兩個只出現一次的數字,例...