復合資料型別,英文詞頻統計

2022-04-03 14:56:27 字數 2221 閱讀 9529

作業部落格要求:

1.列表,元組,字典,集合分別如何增刪改查及遍歷。

(1)列表

list = ['

a','

b','

hello

',1]

#第一在列表後方新增資料 第二為在對應的下邊插入資料

list.insert(0,'0

')print(list)

通過pop() 根據索引刪除並返回被刪除的元素;一般通過for迴圈來遍歷列表,如for s in stus :print(s)形式。

(2)元祖

使用()來建立元組,它的操作的方式基本上和列表是一致的。但元組是不可變的序列,不能嘗試為元組中的元素重新賦值

(3)字典

使用 {} 來建立字典,每乙個元素都是鍵值對,鍵不重複,值可以重複。

(4)集合

使用 {} 或set() 函式來建立集合,操作與字典類似,但只包含鍵,而沒有對應的值,包含的資料不重複。可以通過set()來將序列和字典轉換為集合。

(1)列表用表示,有序,可變,可重複,元素以值的方式儲存為值,可通過索引查詢,如mylist[1]

(2)元組用()表示,有序,不可變,可重複,元素以值的方式儲存為值,可通過索引查詢,如tuple[0]

(3)字典用{}表示,無序,鍵不可重複,值可以重複,元素以鍵值對的方式儲存為值,一般通過鍵查詢,如dist['key']

(4)集合用{}表示,無序,可變,不可重複,元素以值的方式儲存為值,可以通過set()來將序列和字典轉換為集合。

3.詞頻統計

2.通過檔案讀取字串str

3.對文字進行預處理

4.分解提取單詞list

5.單詞計數字典set,dict

6.按詞頻排序list.sort(key=lambda),turple

7.排除語法型詞彙,代詞、冠詞、連詞等無語義詞

8.輸出top(20)

import

pandas as pd

defgettext():

txt = open(r"

e:\king\pycharm\kingking\big.txt

", "rt"

).read()

txt =txt.lower()

for ch in

'''』!@#$%^&*()_+=-';":.,<>/?|

''':

txt.replace(ch, ""

) wordlist =txt.split()

return

wordlist

#詞頻統計

wordlist =gettext() #

過濾(排除語法詞彙,帶刺,冠詞,連詞等)

mum =

wordset = set(wordlist) -mum

#字典worddict ={}

for w in

wordset:

worddict[w] =wordlist.count(w)

#詞頻排序

wordsort =list(worddict.items())

wordsort.sort(key=lambda x: x[1], reverse=true)

for i in range(20):

print

(wordsort[i])

pd.dataframe(data=wordsort).to_csv(r'

e:\\king\\大三(二)\\big.csv

排序好的單詞列表word儲存成csv檔案

import pandas as pd

pd.dataframe(data=word).to_csv('big.csv',encoding='utf-8')

線上工具生成詞云:

復合資料型別,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。列表 list1 a b c d 設定列表1 print list1 輸出列表1 增list1.insert 4,e 增添元素 print list1 刪list1.pop 3 刪除指定位置元素 print list1 改list1 0 q 直接修改...

復合資料型別,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。列表的增刪改及遍歷 定義列表 list1 list gzcc 列表的增加 list1.extend yes 列表的刪除 list1.pop 4 列表的修改 list1 0 1 將第0個元素修改為 1 列表的查詢 list1.index 1 列表的遍歷...

復合資料型別,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。列表 list 增list.insert index,obj 增加元素到指定位置 index 索引位置 obj 內容 list.extend list i 將list i列表中的元素增加到list中 刪list.pop 預設刪除list末尾的元素 l...