#coding:utf-8
import
requests
import
reimport
json
url='
' #豆瓣網
defget_page(url):
#獲取網頁上的資料
response_html=requests.get(url)
#return
response_html.text
defrun(url):
response=get_page(url)
#編譯匹配規則,找出用的資料
obj=re.compile('
',re.s)
res=obj.finditer(response)
file={}
for i in
res:
file[i.group('id
')]=(i.group('
title
'),i.group('
rating
'),i.group(''))
#print(file)
#將有用的資訊轉成json格式,以字典的格式儲存到檔案中
content=json.dumps(file,ensure_ascii=false)
f = open('
doubian.txt
', 'a'
) f.seek(0,2)
f.write(content+'\n'
) file={}
i=0while i < 251:
#迴圈取出所有網頁裡的內容(根據網頁不同進行更改)
a=irun(url)
i+=25url=re.sub('
start=\d+
','start=
'+str(i),url)
print(url)
python爬蟲案例 Python爬蟲案例集合
在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。import urllib.request 向指定的url位址傳送請求,並返回伺服器響應的類檔案物件 ...
爬蟲學習(十) 原始正則抓取資料案例
打算發大水 import os import re import time import urllib.request import urllib.parse 輸入目標頁碼和儲存名 def header start page int input 請輸入起始頁 end page int input 請...
python websocket爬蟲案例
精華都在這圖上,和下面 沒啥加密可以當個簡單模板 目標 url ws.send json.dumps data 以字串傳送訊息 print ws.recv ws.close 關閉連線 ws.send frame 以幀形式傳送資料 以幀形式傳送資料 ws.recv data frame 接收以幀傳送的...