1,安裝第三方庫檔案-pdfminer3k。
安裝方式:
pip install pdfminer3k
中文參考文件
3,資料獲取思路:
(1)通過pdf轉html,再利用爬蟲技術解決,目前來說這方面的技術比較成熟,而且參考很多。
(2)通過pdf轉為txt格式,再通過字元提取的方式處理。這樣的方式容易理解。
(3)根據pdf讀取方式,採用直接讀取pdf內容,通過記憶體管理的方式,實現內部呼叫讀取的資料。
為了保證後續的技術使用方便性,這裡採用第三種方式進行處理。
4,讀取pdf
from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
import re
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
def main(pdf='sdge_bill.pdf'):
with open(pdf, "rb") as f:
output = readpdf(f)
meternumberregex = re.compile(r'(meter number: )\d')
meternumber = meternumberregex.search(output).group()
print(meternumber)
taxesfeesregex = re.compile(r'(total taxes & fees on electric charges -)\s+\$\d\.\d+')
taxesfees = taxesfeesregex.search(output).group()
print(taxesfees)
if __name__ == '__main__':
main()
讀取結果:
meter number: 00613430
total taxes & fees on electric charges - $1.41
這裡,pdf讀取工作已經完成,
另外,可以採用pdf轉為字串的方式進行讀取,這樣可以利用爬蟲的資料處理方法來進行分析。
from urllib.request import urlopen
from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdffile = urlopen("")
outputstring = readpdf(pdffile)
print(outputstring)
pdffile.close()
語言文字分析(1)
語言在資料探勘中應用廣泛,並有越來越火的趨勢。語言進行文字挖掘也是相當好使。作為乙個 語言新手,追隨著眾多牛人的腳步,嘗試使用 語言進行文字挖掘分析,過程應是充滿艱辛,道路曲折坎坷之處write down以記錄之。我從text analysis with r for students of lite...
中文文字分析(1) 分詞
import jieba import re 資料格式 晚上想吃五花肉土豆蓋澆飯 今晚吃雞嘿咻嘿 綠皮環保小火車進站 一首 夢醒時分 送給大家 具體流程如下 目的 清洗文字中的特殊符號 sentence 晚上想吃五花肉土豆蓋澆飯 今晚吃雞嘿咻嘿 綠皮環保小火車進站 一首 夢醒時分 送給大家 def ...
利用Python進行資料分析學習記錄1
coding utf import numpy as np data np.random.randn 2,3 生成隨機數組 2維陣列 每組內三個隨機數 print data 1.25501044 1.05825185 1.26123328 0.16313349 0.48071422 1.566335...