首先是先把每篇文章裡的單詞用正規表示式切分出來,然後放進乙個list裡面,然後再將這個list裡面的元素一一遍歷,每次遍歷後的結果都是用正則對這個單詞進行切分,將得到的結果就是用另乙個list儲存起來,最後求這個list的長度就是每個單詞的字母長度了。
具體的**如下:
# -*-coding:utf-8 -*-import nltk
# nltk.download()
import sys
import numpy
import re
import os
from scipy.stats import pearsonr
reload(sys)
sys.setdefaultencoding('utf8')
n = 0
while n < 5:
n += 1
url = '/home/zheng/firstproject2/essay/' + str(n)
file_name = os.listdir(url)
str(n) + '
分下文章
'number = 0
for single_file in file_name:
number += 1
mean=0
sd=0
with
open(url + '/' + single_file, 'r') as essay:
content = essay.read()
essay_list=re.findall('([a-za-z
\']+)',content)
for word in essay_list:
letterword_list=re.findall('([a-za-z])',word)
letterword_num=len(letterword_list)
mean +=letterword_num
print '第
' + str(number) + '
'+str(mean)
print '第
' + str(number) + '
'+str(mean*1.0/len(essay_list))
for word in essay_list:
letterword_list=re.findall('([a-za-z])',word)
letterword_num=len(letterword_list)
sd+=(letterword_num-mean*1.0/len(essay_list))*(letterword_num-mean*1.0/len(essay_list))
sd=sd*1.0/len(essay_list)
print '第
' + str(number) + '
'+str(sd)
print '第
' + str(number) + '
'+str(sd**0.5)
Trie樹計算單詞字首的個數
時間限制 10000ms 單點時限 1000ms 記憶體限制 256mb 小hi和小ho是一對好朋友,出生在資訊化社會的他們對程式設計產生了莫大的興趣,他們約定好互相幫助,在程式設計的學習道路上一同前進。這一天,他們遇到了一本詞典,於是小hi就向小ho提出了那個經典的問題 小ho,你能不能對於每乙個...
單詞的個數
從大神處學習的,主要關鍵是sscanf函式的乙個用法,就是遇到空格時,讀入結束。還有gets函式的乙個點,與scanf不同的是輸入字串是直到換行符時才結束,而scanf函式遇到空格時讀入就結束了。其中乙個思想是用二維陣列記錄一行字串,我覺得這個思想很好。include include using n...
單詞的個數
從大神處學習的,主要關鍵是sscanf函式的乙個用法,就是遇到空格時,讀入結束。還有gets函式的乙個點,與scanf不同的是輸入字串是直到換行符時才結束,而scanf函式遇到空格時讀入就結束了。其中乙個思想是用二維陣列記錄一行字串,我覺得這個思想很好。include include using n...