response = requests.get("")
response.content.decode("utf-8") 返回bytes型別 decode解碼
response.text request.encoding = "gbk" # 修改編碼 返回str型別
獲取
## 狀態碼
response.status_code
# 響應頭
response.headers
# 請求頭
response.request.headers
200# 傳送帶header的請求
#coding=utf-8
import
requests
url = "
"}response = requests.get(url,headers=
headers)
(response.status_code)
(response.headers)
(response.request.headers)
# 傳送帶引數的請求
# 佔位符 建議使用format+ {} 代替
input_string = input("")
url = "/s?wd={}".format(input_string) || url = ""%input_string
列表推導式
# 範圍0~9
[i for i in range(10)]
# i對2取餘 輸出
[i%2 for i in range(10)]
# i對2取餘,如果對而取餘等於0 則輸出
[i%2 for i in range(10) if i%2==0]
## 物件導向
- 物件
- 生活中的事務
- 類- 對事務的抽象 在**中實現class 型別
- 例項
- 使用之前對類的例項化之後的結果
# get 請求貼吧
#coding=utf-8
import
requests
class
tiebaspider:
def__init__
(self,tieba_name):
self.tieba_name =tieba_name
self.url_temp = "
"+tieba_name+"
&ie=utf-8&pn={}
"self.headers =
defget_url_list(self):
return [self.url_temp.format(i*50) for i in range(10)]
defparse_url(self, url):
response = requests.get(url, headers=self.headers)
return response.content.decode("
utf-8")
defs**e_html_str(self, html_str, page_num):
file_path = "
{}-第{}頁
".format(self.tieba_name, page_num)
with open(file_path, "w
", encoding="
utf-8
") as f:
f.write(html_str)
defrun(self):
#1 構造url
url_list =self.get_url_list()
#2 傳送請求 獲取相應
for url in
url_list:
html_str =self.parse_url(url)
#3 儲存
page_num = url_list.index(url) + 1self.s**e_html_str(html_str, page_num)
if__name__ == "
__main__":
tieba_spider = tiebaspider("李毅")
tieba_spider.run()
# 儲存貼吧內容到本地
# post 請求 安全 大文字傳輸
data = # 字典
requests.post("",data = data,headers=headers)
Python Python網路爬蟲(二)
中國大學排名定向爬蟲 url import requests from bs4 import beautifulsoup import bs4 獲取html defgethtmltext url try r requests.get url,timeout 30 r.raise for status...
防盜煉python Python爬蟲學習指南
1,基礎篇 2,高階篇 3,高階篇 python 基礎是學習python爬蟲不可少的abc,爬蟲簡單的理解,就是通過程式模擬人操作網路傳送請求,獲取資料返回,清洗,篩選,整理出有用的資料,結構化儲存資料,方便資料的瀏覽,計算,視覺化,最終實現數字的描述型價值與 型價值 基礎庫urllib,urlll...
小白學爬蟲
最近剛開始學習爬蟲,準備將自己的學習情況寫下來。一是為了鞏固記憶,二是為了更好的與人交流,讓我的爬蟲之路不孤單。下面展示一下爬取資料的過程。1 首先需要匯入requests模組,requests模組需要安裝。2 通過url獲得響應物件,具體是通過get請求還是post請求這篇文章講的很好reques...