
2021-09-27 07:41:11 字數 2011 閱讀 2048

import jieba

from sklearn.feature_extraction.text import countvectorizer #統計詞數,英文

'''# 構建文章【英文】

content = ['this is the first document.', 'this is the second second document.', 'and the third one.', 'is this the first document? i x y']


con_vet = countvectorizer()


x = con_vet.fit_transform(content)

print(x) # (0, 1) 1 (文章下標,分詞下標) 詞在文章**現的次數 sparse矩陣

print(x.toarray()) # 將 sparse矩陣 轉化為 陣列

# 獲取提取到詞語

names = con_vet.get_feature_names()

print(names) # 提取到的詞

'''# 構建文章【中文】

content =






]content_list =

for tmp in content:

# 使用精確模式進行分詞 cut_all預設為精確模式

res = jieba.cut(tmp,cut_all=


) res_str =



con_vet = countvectorizer(stop_words=




x = con_vet.fit_transform(content_list)


(x)# (0, 1) 1 (文章下標,分詞下標) 詞在文章**現的次數 sparse矩陣



# 將 sparse矩陣 轉化為 陣列

# 獲取提取到詞語

names = con_vet.get_feature_names(



# 提取到的詞

from sklearn.feature_extraction.text import tfidfvectorizer

# 構建文章【英文】

content =

['this is the first document.'

,'this is the second second document.'

,'and the third one.'

,'is this the first document? i x y'


# min_df = 1 # 設定分詞的時候,詞必須至少出現一次

# stop_words ===停用詞 不重要的詞去掉

tf_vet = tfidfvectorizer(stop_words=




x =tf_vet.fit_transform(content)


(x)#(0, 1) 1 (文章下標,分詞下標) 詞在文章**現的重要程度 sparse矩陣



#將 sparse矩陣 轉化為 陣列

# 獲取提取到詞語

names = tf_vet.get_feature_names(



# 提取到的詞


include include include include include includeusing namespace std struct node int main else if s.find 1 transform s.begin s.end s.begin toupper sourc...


時間限制 10 sec 記憶體限制 128 mb neo 給你一系列字串,請你輸出字串中的不同單詞個數以及總單詞個數。多組輸入,每組資料都是一行字串 長度小於200 其中每個單詞以空格隔開 單詞都是小寫字母組成 輸出字串中的不同單詞個數以及總單詞個數。i love china aa aa bb 3 ...

2019 3 20統計單詞數

題目描述 修羅王和邪狼潛入銀行盜走了大量的珠寶,警察經過仔細查詢和推理,終於找到了裝有這批珠寶的保險櫃,但無法開啟保險櫃。經過觀察發現保險櫃背面有一行字元,且發現只要統計出這行字串中有多少個單詞就是開啟保險櫃的密碼。單詞之間由乙個或多個空格分開,且字串不以空格開頭。輸入描述 輸入一行包含若干空格的字...