小白爬蟲學習2 遇到的困難

```python
from bs4 import beautifulsoup
import requests
import time   # 匯入相應的庫檔案
headers=
defjudgment_***
(class_name)
:if class_name==
['member_icol']:
return
'女'else
:return
'男'# 定義判斷使用者性別的函式
defget_links
(url)
:# 定義獲取詳細頁的url的函式
wb_data=requests.get(url,headers=headers)
soup=beautifulsoup(wb_data.text,
'lxml'
)    links=soup.select(
'page_list>ul>li>a'
)for link in links:
href=link.get(
'href'
)        get_links(href)
# 迴圈出的url函式，一次呼叫get_info函式
defget_info
(url)
:    wb_data=requests.get(url,headers=headers)
soup=beautifulsoup(wb_data.text,
'lxml'
)    titles=soup.select(
'div.pho_info>h4'
)    addresses=soup.select(
'span.pr5'
)    prices=soup.select(
"#pricepart>div.day_1>sapn"
)    imgs=soup.select(
'#floatrightbox>div.js_box.clearfix>div.member_pic>a>img'
)    names=soup.select(
"#floatrightbox>div.js_box.clearfix>div.w_240>h6>a"
)    ***s=soup.select(
'#floatrightbox>div.js_box.clearfix>div.member_pic>div'
)for title,address,price,img,name,*** in
zip(titles,addresses,prices,imgs,names,***s)
:        data=
print
(data)
# 獲取資訊並通過字典的形式列印出來
if __name__==
'__main__'
:# 程式的主入口
for i in
range(1
,2):
urls=
[''.format
(i)]
# 構造多頁url
for single_url in urls:
# 迴圈呼叫get_links()函式
get_links(single_url)
time.sleep(2)
# 睡眠2秒

``按照書上寫的敲了一遍，**基本一樣的執行後就卻只顯示正常退出，沒有爬到的資料，小白想了好多**的問題都想不通，想請教各位大神，為什麼是這樣啊。是****錯了麼，感謝啦！！

執行後的結果，什麼都沒有啊，腦殼疼。

爬蟲正規表示式遇到的困難

我看了csdn和，除去格式以外。如果能夠儲存就好啦。我觀察資料大多存放在標籤裡面。現在如果能夠去掉p標籤的同時。保留住感覺要用正規表示式我拿出這兩個鏈結，你可以看看 csdn 以csdn為例子主要就是，既要保留img標籤裡面的鏈結。又要去掉所有的其他標籤查詢來篩選 src 結果有乙個雙引號...

遇到困難時的SOP

今天，被乙個看似困難的問題所困擾著，整整折磨我一天，其實這個問題沒有想像中的難，甚至以前也遇過類似的問題。以下幾個原因，首先是自己思路受限，沒有及時調整，使自己陷入死迴圈中，越去想，越想不出來，越想不出來，人越煩，越沒狀態。其次，昨晚幾番通宵，今天的狀態可想而知，今晚回到宿舍，抱著再試試的想法，開啟...

爬蟲學習（2）

設定header 偽裝有些沒有header裡面設定的身份是不會響應請求的，所以為了能響應請求，加入身份認證import urllib import urllib2 url user agent mozilla 4.0 compatible msie 5.5 windows nt 瀏覽器身份認證...

小白爬蟲學習2 遇到的困難

爬蟲正規表示式遇到的困難

遇到困難時的SOP

爬蟲學習（2）

相關推薦