mport re #正規表示式mysent = 'this book is the best book.'
regex = re.compile('
\\w*') #
\\w*表示除了單詞數字外的任意字串
list0ftokens = regex.split(mysent)
上面也可以寫成:
mysent = 'this book is the best book.'
listoftokens = re.split(r'\w*', mysent)
list1ftokens = [ tok.lower() for tok in list0ftokens if len(tok) > 0 ]
上面一句程式寫全:
list1ftokens =
for tok in list0ftokens:
if len(tok) > 0:
print(list1ftokens)
結果:['this', 'book', 'is', 'the', 'best', 'book']
分隔一封郵件文字
import re #正規表示式
import os
os.chdir('e:\機器學習實戰**\machinelearninginaction\ch04\email\ham')
regex = re.compile('
\\w*')
emailtext = open('6.txt')
emailtext1 = regex.split( emailtext.read() )
emailtext2 = [tok.lower() for tok in emailtext1 if len(tok) > 3] 用》3來去除url的殘餘字母
print(emailtext2)
結果:['hello', 'since', 'you', 'are', 'an', 'owner', 'of', 'at', 'least', ......'changes', 'to', 'google', 'groups']
ADO訪問文字資料檔案
在vb裡使用ado訪問文字資料檔案是一件簡單的事件,但還是有些朋友不太明白。因此作一些說明,希望能給朋友一點啟發。首先,如果文字資料檔案有多個字段,那我們需要建立乙個名為schema.ini的配置檔案,用來描述文字檔案的字段資訊,該檔案必須與作為資料 的文字資料檔案存放在同乙個資料夾裡。其實sche...
使用pandas切分超大資料檔案
toc 我現在需要將乙個6.33gb的sql檔案上傳到資料庫,但檔案太大,上傳過程太慢,所以我選擇用pandas將檔案切分。import pandas as pd第乙個引數不用說了。header none是讓它沒有列名,不然它就自動取我資料的第一行為列名了。sep是設定資料分隔符。我的資料是換行符分...
unity解析json資料 檔案
unity中解析json檔案 檔案管理類 using unityengine using system.collections using system.io public class filemanger return instance private filemanger public void...