```python
from bs4 import beautifulsoup
import requests
import time # 匯入相應的庫檔案
headers=
defjudgment_***
(class_name)
:if class_name==
['member_icol']:
return
'女'else
:return
'男'# 定義判斷使用者性別的函式
defget_links
(url)
:# 定義獲取詳細頁的url的函式
wb_data=requests.get(url,headers=headers)
soup=beautifulsoup(wb_data.text,
'lxml'
) links=soup.select(
'page_list>ul>li>a'
)for link in links:
href=link.get(
'href'
) get_links(href)
# 迴圈出的url函式,一次呼叫get_info函式
defget_info
(url)
: wb_data=requests.get(url,headers=headers)
soup=beautifulsoup(wb_data.text,
'lxml'
) titles=soup.select(
'div.pho_info>h4'
) addresses=soup.select(
'span.pr5'
) prices=soup.select(
"#pricepart>div.day_1>sapn"
) imgs=soup.select(
'#floatrightbox>div.js_box.clearfix>div.member_pic>a>img'
) names=soup.select(
"#floatrightbox>div.js_box.clearfix>div.w_240>h6>a"
) ***s=soup.select(
'#floatrightbox>div.js_box.clearfix>div.member_pic>div'
)for title,address,price,img,name,*** in
zip(titles,addresses,prices,imgs,names,***s)
: data=
print
(data)
# 獲取資訊並通過字典的形式列印出來
if __name__==
'__main__'
:# 程式的主入口
for i in
range(1
,2):
urls=
[''.format
(i)]
# 構造多頁url
for single_url in urls:
# 迴圈呼叫get_links()函式
get_links(single_url)
time.sleep(2)
# 睡眠2秒
``按照書上寫的敲了一遍,**基本一樣的執行後就卻只顯示正常退出,沒有爬到的資料,小白想了好多**的問題都想不通,想請教各位大神,為什麼是這樣啊。是****錯了麼,感謝啦!!
執行後的結果,什麼都沒有啊,腦殼疼。
爬蟲正規表示式遇到的困難
我看了csdn和,除去格式以外。如果能夠儲存 就好啦。我觀察資料大多存放在標籤裡面。現在如果能夠去掉p標籤的同時。保留住 感覺要用正規表示式 我拿出這兩個鏈結,你可以看看 csdn 以csdn為例子 主要就是,既要保留img標籤裡面的鏈結。又要去掉所有的其他標籤 查詢來篩選 src 結果有乙個雙引號...
遇到困難時的SOP
今天,被乙個看似困難的問題所困擾著,整整折磨我一天,其實這個問題沒有想像中的難,甚至以前也遇過類似的問題。以下幾個原因,首先是自己思路受限,沒有及時調整,使自己陷入死迴圈中,越去想,越想不出來,越想不出來,人越煩,越沒狀態。其次,昨晚幾番通宵,今天的狀態可想而知,今晚回到宿舍,抱著再試試的想法,開啟...
爬蟲學習(2)
設定header 偽裝 有些 沒有header裡面設定的身份是不會響應請求的,所以為了能響應請求,加入身份認證import urllib import urllib2 url user agent mozilla 4.0 compatible msie 5.5 windows nt 瀏覽器 身份認證...