Python自然語言分析(第四期) 第2課書面作業

2021-08-02 03:08:26 字數 1101 閱讀 8385

#  -*- coding: utf-8 -*-

import

nltk

from

nltk.book import

*len_text2 =

len(text2)

len_dis_text2 =

len(set(text2))

print

("在text2中有"

+ str(len_text2) +

"個詞")

print

("在text2中有"

+ str(len_dis_text2) +

"個不同的詞")

print

("因為言情**詞彙多樣性得分是8.3,幽默小的詞彙多樣性得分是4.3,所以是幽默**文體中的詞彙更豐富")

text5.collocations()

word_li = [w for

w in

text5 if

len(w) ==

4]fdist = freqdist(word_li)

sorted_word_li =

sorted(fdist.keys(), key

=lambda

x: fdist[x], reverse

=true)

for

w in

sorted_word_li:

print

"%s\t

%d; "

% (w, fdist[w]),

print

("")

def

percent(word

,text

):freq =

len([w for

w in

text

if w ==

word

]) *

1.0

/ len(text

)*100

return

freq

print

(str(round(percent("join",text5),3))+

"%")

自然語言處理第四期

tf idf原理 tf idf 詞頻 逆文字頻率 是一種統計方法,用於評估乙個詞對於乙個文字的重要程度,詞的重要性隨著它在檔案 現的次數成正比,但同時會因為它在多個文字 現的頻率成反比。總的來說,乙個詞語在一篇文章 現的次數越多,同時在所有文件 現的次數越少,就越能代表該文章。tf idf主要是有詞...

第四期題目

1 乙個工人打工7天,工資一天一結,有一根金條是這七天的總工資,問只能掰兩次,而且工資天天發,怎麼掰?2.乙個商人,想做乙個管理員工的資訊的系統,他提供了員工名,和員工工資 開發員就在資料庫中建了乙個表,有員工名和員工工資兩列,系統做好了,商人聽到員工的要求,說要把錢直接打到自己的卡里,商人要求,在...

第四期c語言答案

在字串中找出第乙個只出現一次的字元,如輸入 abaccdeff 則輸出 b 要求時間複雜度為o n 對於乙個字串,請設計乙個高效演算法,找到第一次重複出現的字元,測試樣例 qywyer23tdd 返回 y 乙個整形陣列裡除了兩個數字之外,其他的數字都出現了兩次,請寫程式找出這兩個只出現一次的數字,例...