一.詞頻統計程式開發想法:
1.建立用於存放單詞和數目的函式。
2.從檔案中進行讀取。
3.對讀出的單詞進行處理。
5.對字母的個數進行記錄。
二.程式主要部分:
1.檔案的讀取
2.對字母的數目計量,運用了逐行讀取,類的測試,用
if語句處理列表,迴圈語句
3.結果的輸出
**如下:
import功能一:reclass
wf():
def__init__
(self):
self.file_name = input('
please input the name of book:')
self.get_words()
self.console_print()
self.
__init__
()
defget_words(self):
file_tail = ''if'
.txt
'in self.file_name else
'.txt
'with open (self.file_name + file_tail, '
r', encoding = '
utf-8
') as f:
for line in
f:
for i in re.sub(r'
[^\w\s]
','', line).replace('
\n','').split(''):
if i not
in else
: def
console_print(self):
for k, w in
(k, w)
print('
\ntotal: %swords
wf()
功能二:
我只能完成功能1和功能2
難點:對於單詞的記數,重複的單詞數記錄時,不在總數的記錄上並不增加。
盲點:由於沒有多少寫**的經驗,導致對函式的運用很是生疏,在進行多次的閱讀和例子的學習之後後才知道如何正確的使用。
突破:類的測試一直只是停留在書本上,但是自己這次進行了一點使用。
總結:我上面所寫的**只能實現功能一和功能二,會努力完成剩餘的其他功能。
三.psp**:
任務task
預計花費時間(min)
實際花費時間(min)
相差時間(min)
功能120
3313
功能290
195105
測試功能152
3測試功能2810
2原因:
沒有太多程式設計的經驗,程式設計時間會延長在意料之內。
pathon的知識運用不熟,函式和類的運用不能很好的與題目結合起來。
讀懂題目要求花了較多時間。
PTA 詞頻統計
請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...
詞頻統計(上機)
include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...
hamlet詞頻統計
part2 code 10.1calhamlet.py def gettext txt open hamlet.txt r read 將文字中的英文本母全部轉為小寫字母 txt txt.lower return txt hamlettxt gettext words hamlettxt.split ...