統計csv詞頻 統計詞頻並視覺化

2021-10-16 20:30:57 字數 956 閱讀 9100

最近參加乙個nlp的競賽,賽方提供了10萬條資料。由於是脫敏資料,所以作nlp之前需要先作word2vec,這時就需要將標點符號和無意義的詞(比如「的」)去掉,我們採用的方法就是去掉高頻詞,所以首先要找到高頻詞。

如何找到高頻詞呢, 這裡當然可以使用dict了,但是有沒有更高階一點的方法呢。

當然有了,我們可以使用collections的counter,並且使用pandas來替代讀取資料的解析資料的部分

首先使用pandas來讀取和解析資料

data_path = "e:\\ml_learning\\daguan\\data\\train_set.csv"

train_data = pd.read_csv(data_path)

article = train_data["article"]

f = lambda x: x.split(" ")

然後對每個list呼叫counter的update方法獲得詞頻資料

word_counts = counter()

for line in article_list:

word_counts.update(line)

最後分析統計到的資料,並將其視覺化

counter_list = sorted(word_counts.items(), key=lambda x: x[1], reverse=true)

label = list(map(lambda x: x[0], counter_list[:20]))

value = list(map(lambda y: y[1], counter_list[:20]))

plt.bar(range(len(value)), value, tick_label=label)

plt.show()

資料太多,我們只顯示其前20個資料

使用bar char來畫圖

最後出來的影象

figure_1.png

統計csv詞頻 基於給定詞語列表統計詞頻

基於給定詞語列表並統計詞頻,統計結果輸出到csv中。有兩種實現方法 思路 第一步,整理好待查詢query words 第二步,新建乙個csv檔案,並且將query words以列名寫入csv中 第三步,對文字分詞,得到詞語列表wordlist 第四步,對每乙個query words中的詞語計算其在w...

統計csv詞頻 基於給定詞語列表統計詞頻

基於給定詞語列表並統計詞頻,統計結果輸出到csv中。有兩種實現方法 思路 第一步,整理好待查詢query words 第二步,新建乙個csv檔案,並且將query words以列名寫入csv中 第三步,對文字分詞,得到詞語列表wordlist 第四步,對每乙個query words中的詞語計算其在w...

PTA 詞頻統計

請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...