測試返回200
下面展示一些內聯**片
。
import requests
r = requests.get(url)
if r.status_code !=200:
raise exception()
返回200則進行下一步爬取
url =
""import requests
r = requests.get(url)
if r.status_code !=
200:
raise exception(
)html_doc = r.text
from bs4 import beautifulsoup
soup=beautifulsoup(html_doc,
"html.parser"
)h2_nodes= soup.find_all(
"h2"
, class_=
"post-title"
)for h2_node in h2_nodes:
link = h2_node.find(
"a")
print
(link[
"href"
],link.get_text(
))
輸出結果
總的來說,對爬蟲有了初級體驗,能順利走乙個試試,但對於語句的編輯還有待加強。
python學習第11天
一.locals 和 globals函式 1.locals函式 獲取當前作用域中的所有內容 locals如果在函式外面,呼叫locals 獲取的是列印之前的所有變數,返回字典,是全域性空間作用域 locals如果在函式裡面,呼叫locals 獲取的是呼叫之前的所有變數,返回字典,是區域性空間作用域 ...
Python自學爬蟲
解除安裝前面 這是乙個半自動爬蟲,也就是手動的比較多 也是個人學習效果展示 如果對看到的人有幫助 那再好不過了 匯入正規表示式模組和csv模組 import re import csv 讀取檔案 with open source.txt r encoding gbk as f all str f.r...
杭州自學python爬蟲 自學PYTHON爬蟲
response urllib2.urlopen urlopen url,data,timeout 第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket....