用了requests和beautifulsoup
import requests
from bs4 import beautifulsoup
import re
#首先通過chrome獲得headers,包括user-agent和cookie
headers =
#獲取該部門通訊錄的最大頁數
url = r""
r = requests.get(url=url, headers=headers)
r.encoding =
'utf-8'
soup = beautifulsoup(r.text,
'lxml'
)totalpage =
int(soup.find(name=
'input'
,attrs=)[
'value'])
#通過正規表示式獲得該部門的總人數
temp_renshu = soup.find(name=
'b',attrs=
).string
renshu =
int(re.search(
'\d\d(\d+)\d'
,temp_renshu)
.group(1)
)print
("該部門通訊錄共有{}頁,{}人"
.format
(totalpage,renshu)
)#通過遍歷獲得每頁的元素
pudong_list =
for i in
range(1
,totalpage+1)
: url = r""
+str
(i)+
"&orderindex=&ordersign=1&str=all&isvirtal=no"
r = requests.get(url=url,headers = headers)
r.encoding =
'utf-8'
soup = beautifulsoup(r.text,
'lxml'
)for tr in soup.find_all(name=
'tbody'):
for td in tr.find_all(name=
'td'):
#通過td能夠獲取的資料報括第乙個空欄位在內,每乙個人有6個元素))
# print(pudong_list)
#把需要的要素放入新建的列表中
name_list =
for f in
range
(renshu):6
+1]+
','+pudong_list[f*6+
2]+','
+pudong_list[f*6+
3]+','
+pudong_list[f*6+
4]+','
+pudong_list[f*6+
5])#最後再把獲得的要素匯出到文件裡
with
open
('pudong.txt'
,'a'
, encoding=
'utf-8')as
file
:file
.write(
'\n'
.join(name_list)
)
python爬蟲學習第一天
今天開始學習python網路爬蟲,寫個部落格作為筆記以及自己的學習過程以監督自己。今天學習了urllib這個python包的一部分內容,主要是urllib.request 內容簡記 urllib.request.urlopen 詳解 利用以上最基本的urlopen 方法,我們可以完成最基本的簡單網頁...
爬蟲第一天 requests模板學習
本人學習 2020年python爬蟲全套課程 學完可做專案 記錄 連線 簡易網路採集器if name main headers url kw input 輸入乙個單詞 param response requests.get url url,params param,headers headers p...
Python 學習Python爬蟲的第一天
疑問 1 2 修復ie瀏覽器 url 開啟仍有報錯,url 可以正常開啟。eclipse執行還是不對。3 換了個url 爬 ie跟搜狗的源 相同,eclipse的結果還是怪怪的。證明跟瀏覽器無關了。4 爬酷狗首頁不正確的原因找到了。其實是對的,只是因為eclipse console 預設限制了結果行...