對文章單詞的字母個數的計算

首先是先把每篇文章裡的單詞用正規表示式切分出來，然後放進乙個list裡面，然後再將這個list裡面的元素一一遍歷，每次遍歷後的結果都是用正則對這個單詞進行切分，將得到的結果就是用另乙個list儲存起來，最後求這個list的長度就是每個單詞的字母長度了。

具體的**如下：

# -*-coding:utf-8 -*-
import nltk
# nltk.download()
import sys
import numpy
import re
import os
from scipy.stats import pearsonr
reload(sys)
sys.setdefaultencoding('utf8')
n = 0
while n < 5:
n += 1
url = '/home/zheng/firstproject2/essay/' + str(n)
file_name = os.listdir(url)
print  
str(n) + '
分下文章
'number = 0
for single_file in file_name:
number += 1
mean=0
sd=0
with 
open(url + '/' + single_file, 'r') as essay:
content = essay.read()
essay_list=re.findall('([a-za-z
\']+)',content)
for word in essay_list:
letterword_list=re.findall('([a-za-z])',word)
letterword_num=len(letterword_list)
mean +=letterword_num
print '第
' + str(number) + '
'+str(mean)
print '第
' + str(number) + '
'+str(mean*1.0/len(essay_list))
for word in essay_list:
letterword_list=re.findall('([a-za-z])',word)
letterword_num=len(letterword_list)
sd+=(letterword_num-mean*1.0/len(essay_list))*(letterword_num-mean*1.0/len(essay_list))
sd=sd*1.0/len(essay_list)
print '第
' + str(number) + '
'+str(sd)
print '第
' + str(number) + '
'+str(sd**0.5)

Trie樹計算單詞字首的個數

時間限制 10000ms 單點時限 1000ms 記憶體限制 256mb 小hi和小ho是一對好朋友，出生在資訊化社會的他們對程式設計產生了莫大的興趣，他們約定好互相幫助，在程式設計的學習道路上一同前進。這一天，他們遇到了一本詞典，於是小hi就向小ho提出了那個經典的問題小ho，你能不能對於每乙個...

單詞的個數

從大神處學習的，主要關鍵是sscanf函式的乙個用法，就是遇到空格時，讀入結束。還有gets函式的乙個點，與scanf不同的是輸入字串是直到換行符時才結束，而scanf函式遇到空格時讀入就結束了。其中乙個思想是用二維陣列記錄一行字串，我覺得這個思想很好。include include using n...

對文章單詞的字母個數的計算

Trie樹計算單詞字首的個數

單詞的個數

單詞的個數

相關推薦