python抓取script VAR變數

因工作需要對乙個指令碼裡的var變數進行提取，看了很多教程，安裝了一堆的庫lxml、bs4、json，後來發現都沒有用，最基本的re和requests就夠了，先上var所在script 內容


var mymarhq ='';
clearinterval
(mymarhq);$
('.tbl-body tbody').
empty()
;$('.tbl-header tbody').
empty()
;var str ='';
var items =[,
,,,]
;var items_ =
0

需要提取 var items 後面的內容，想了很多辦法，都不好用，最後用正規表示式搞定。

import re
import requests
url =
'your url'
#var 所在網頁
resp = requests.get(url)
text = resp.text
# print(text)
cbrbms = re.findall(r""".+?cbrbm":"(.+?)"  
.+?cbrmc":"(.+?)"
""", text, re.verbose | re.dotall)
#  '.+?'意思是任意一串字元，cbrbm和後面的符號表示用於識別的關鍵字，（）表示要提取的內容，（）後的雙引號表示提取結束的標識, re.verbose | re.dotall什麼意思我也不太懂，但是乙個不能少，少了就提取不出來。

效果就是提取了，cbrbm（人員編碼）和cbrmc（人員名稱），取回來是list型別。

Python抓取網頁

在python中，使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...

Python抓取小說

這個指令碼命令mac在抓取寫，使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...

python抓取script VAR變數

Python抓取網頁

Python抓取小說

Python網頁抓取

相關推薦