小白學爬蟲

最近剛開始學習爬蟲，準備將自己的學習情況寫下來。一是為了鞏固記憶，二是為了更好的與人交流，讓我的爬蟲之路不孤單。

下面展示一下爬取資料的過程。

1、首先需要匯入requests模組,requests模組需要安裝。

2、通過url獲得響應物件，具體是通過get請求還是post請求這篇文章講的很好requests模組

。3、將獲得的響應物件儲存為text格式，最後儲存到資料夾中。

import requests
# step_1
url=
''#step_2:返回值是乙個響應物件
response=requests.
get(url=url)
#step_3:text返回的是字串形式的響應資料
page_text=response.text
#step_4：
with
open
('./sougou.html'
,'w'
,encoding=
'utf-8'
)as fp:
fp.write
(page_text)

下面展示一些具體**。

1、首先我們先開啟搜狗，我們可以看到搜狗的url為，然後我們隨便搜尋乙個東西，比如人民幣，得到的url為/web?query=人民幣&_asf=www.sogou.com&_ast=&w=01015002&p=40040108&ie=utf8&from=index-nologin&s_from=index&oq=&ri=0&sourceid=sugg&suguuid=&sut=0&sst0=1608468239637&lkt=0%2c0%2c0&sugsuv=1608468236761682&sugtime=1608468239637，我們將人民幣後面的刪掉之後，發現鏈結還是可以搜尋人民幣，所以我們知道後面的是沒用的，真正有用的就是/web?query=人民幣這一塊。

2、而且我們可以知道」query=人民幣「是我們搜尋的內容，如果我們搜尋的內容變成**，那麼」query=人民幣「就會變成」query=**「，這個是動態變化的，而前面的/web是不變的，所以我們先將不變的存為url，然後將我們需要獲取瀏覽的資料儲存在wd，通過params引數對請求url引數進行封裝。

3、通過headers進行ua偽裝，不讓**發現是爬蟲，通過瀏覽器進行查詢你的user-agent輸入到你的請求頭資訊中。

4、通過get請求對資料進行請求，請求中，應該包含url，動態變化的params，請求頭資訊

5、通過手動改變響應資料的編碼，使我們找出來的資料呈現為漢字，可以看懂。

6、將獲得的響應物件儲存為text格式，最後儲存到資料夾中。

import requests
#想要將url攜帶的引數設定成為動態變化
url=
'/web'
#儲存的就是動態的請求引數
wd=input
('enter a key:'
)#params引數表示的是對請求url引數的封裝
params=
#即將發起請求的頭資訊
#header引數用作實現ua偽裝
headers=
#一定需要將params作用到請求裡面
response=requests.
get(url=url,params=params,headers=headers)
#手動修改響應資料的編碼，解決中文亂碼
response.encoding=
'utf-8'
page_text=response.text
filename=wd+
'.html'
with
open
(filename,
'w',encoding=
'utf-8'
)as fp:
fp.write
(page_text)
print
(wd,
)

小白學爬蟲

小白是學mysql好還是小白學MySql

爬蟲小白自學日記

小白學爬蟲筆記9 例項中國好大學排名

小白學爬蟲

小白是學mysql好還是 小白學MySql

爬蟲小白自學日記

小白學爬蟲筆記9 例項 中國好大學排名

相關推薦

小白是學mysql好還是小白學MySql

小白學爬蟲筆記9 例項中國好大學排名