value=34895348587575
value=34895348587575
abababbaba
value=1.290934
# -*- coding: utf-8 -*-
"""created on sun aug 16 20:57:31 2020
@author: jwy
"""#coding=utf-8
#version:python 3.6.0
#tools:pycharm 2017.3.2
_date_ = '2019/04/17 22:00'
_author_ = 'cxj'
import re
import csv
name = "hello"
#這裡自己輸入檔案名字,例如我們要處理ab.txt檔案,此處name = "ab", 該寫法需要將txt檔案和該指令碼放在同一目錄下
txtname = name+".txt"
csvname = name+".csv"
fp = open(txtname, "rb")#開啟txt文字
a = fp.read()#讀取xt文字
pattern = 'value=\d+\.\d+|\d+'
for match in re.findall(pattern, a.decode('utf-8')):
print('found '.format(match))
print('found '.format(match))
result=re.findall(pattern, a.decode('utf-8'))
print(result)
#result = re.findall('.*value="(.*)"/.*', a.decode('utf-8'))#正則匹配
list1 = #該列表用於臨時儲存字串
for i in result:#匹配到的內容逐條提取
if i != '':#過濾空白字元
print(i)#看匹配到的內容
#下面就是寫入csv檔案的功能了,newline=''可以避免空行問題
with open(csvname, 'a', newline='') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(list1)
list1.pop()#寫入完成要將列表中的字串刪除
關鍵詞提取
隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...
關鍵詞提取
encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...
關鍵詞提取
import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...