python讀北大corpor的一段測試程式

2021-04-09 01:08:02 字數 1814 閱讀 2464

開始學著python,並為那個相似度開發包做準備.下面是乙個小的測試程式:

#corpor file reader

#author: percylee

#time: 2006/08

class corporfilereader:

"""reader for corpor file, which is labeled just like pku-corpor of

renmin ribao. e.g. 在/p  1998年/t  來臨/v  之際/f  ,/w ..."""

def __init__(self,fpath,splitstr = ' '):

"""need file path to init corporfilereader"""

self.fpath = fpath

self.title = ''

self.document = ''

self.docwordlist =

self.splitstr = splitstr

def __doctitle(self):

if self.docwordlist.__len__() <= 2:

return none

title = self.docwordlist[1]#for [0] is '199801-.../m'

for wordno in range(2,self.docwordlist.__len__()):

if self.docwordlist[wordno].find('/w') >= 0:

break

title = title + self.docwordlist[wordno] + ' '

return title

def read(self):

"""read title and document from corpor file"""

file = open(self.fpath)

self.document = file.read()

file.close()

self.docwordlist = self.document.split(self.splitstr)

self.title = self.__doctitle()

def doctitle(self):

"""get document title"""

return self.title

#test class

print '...in test...'

corporader = corporfilereader('g://pycode//pkucorpora1.txt')

print 'create one object of ' + corporader.__doc__

corporader.read()

print 'and read one document which/'s title is ' + corporader.doctitle()

輸出為:

...in test...

create one object of reader for corpor file, which is labeled just like pku-corpor of

renmin ribao. e.g. 在/p  1998年/t  來臨/v  之際/f  ,/w ...

and read one document which's title is 邁向/v  充滿/v  希望/n  的/u  新/a  世紀/n 

非常簡單.但python著實有趣;很久以來沒有享受到這種學寫程式的單純的快樂了^_^.

python讀座標畫素 python如何讀取畫素值

使用image模組中的getpixel函式獲得畫素值。getpixel函式檢索指定座標點的畫素的rgb顏色值。函式原型 colorref getpixel hdc hdc,int nxpos,int nypos 引數 hdc 裝置環境控制代碼。nxpos 指定要檢查的畫素點的邏輯x軸座標。nypos...

python讀音Python怎麼讀

python,英國發音 pa n 美國發音 pa n 空耳讀法為 派森 是由著名的 龜叔 荷蘭人 guidovan rossum 於1989年聖誕節期間,為了打發無聊的聖誕節而編寫發明的一種物件導向的解釋型計算機程式語言。python第乙個公開發行版的python語言發行於1991年。現在全世界差不...

python利用ElementTree讀寫xml

1.寫xml from xml.etree.elementtree import element,subelement,elementtree 生成根節點 root element root 生成第乙個子節點 head head subelement root,head head 節點的子節點 ti...