因工作需要對乙個指令碼裡的var變數進行提取,看了很多教程,安裝了一堆的庫lxml、bs4、json,後來發現都沒有用,最基本的re和requests就夠了,先上var所在script 內容
var mymarhq ='';
clearinterval
(mymarhq);$
('.tbl-body tbody').
empty()
;$('.tbl-header tbody').
empty()
;var str ='';
var items =[,
,,,]
;var items_ =
0
需要提取 var items 後面的內容,想了很多辦法,都不好用,最後用正規表示式搞定。
import re
import requests
url =
'your url'
#var 所在網頁
resp = requests.get(url)
text = resp.text
# print(text)
cbrbms = re.findall(r""".+?cbrbm":"(.+?)"
.+?cbrmc":"(.+?)"
""", text, re.verbose | re.dotall)
# '.+?'意思是任意一串字元,cbrbm和後面的符號表示用於識別的關鍵字,()表示要提取的內容,()後的雙引號表示提取結束的標識, re.verbose | re.dotall什麼意思我也不太懂,但是乙個不能少,少了就提取不出來。
效果就是提取了,cbrbm(人員編碼)和cbrmc(人員名稱),取回來是list型別。 Python抓取網頁
在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...
Python抓取小說
這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...
Python網頁抓取
coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...