Python學習簡單爬蟲及檔案儲存

import requests
# 獲取**資訊
response = requests.get(""); #生成乙個response物件
#response.encoding = "utf-8"; #設定接收編碼格式
print("狀態碼:" + str(response.status_code)); #列印狀態碼
#print(response.text); #輸出爬取的資訊
#儲存檔案
file = open("d:\\baidu.html","w",encoding="utf")  #開啟乙個檔案，w是檔案不存在則新建乙個檔案，這裡不用wb是因為不用儲存成二進位制
file.write(response.text);
file.close();

知乎資料抓取及儲存檔案：

import requests
#response = requests.get( "")  #第一次訪問知乎，不設定頭部資訊
#print( "第一次,不設頭部資訊,狀態碼:"+response.status_code )# 沒寫headers，不能正常爬取，狀態碼不是 200
#下面是可以正常爬取的區別，更改了user-agent欄位
headers = #設定頭部資訊,偽裝瀏覽器
response = requests.get("" , headers=headers);  #get方法訪問,傳入headers引數，
print("狀態碼:" + str(response.status_code)); # 200！訪問成功的狀態碼
#print(response.text);
#儲存檔案
file = open("d:\\zhuhu.html","w",encoding="utf")  #開啟乙個檔案，w是檔案不存在則新建乙個檔案，這裡不用wb是因為不用儲存成二進位制
file.write(response.text);
file.close();

儲存：

import requests #先導入爬蟲的庫，不然呼叫不了爬蟲的函式

response = requests.get("") #get方法的到響應

file = open("d:\\baidu_logo.gif","wb") #開啟乙個檔案,wb表示以二進位制格式開啟乙個檔案只用於寫入

file.write(response.content) #寫入檔案

file.close()#關閉操作，執行完畢後去你的目錄看一眼有沒有儲存成功

Python簡單爬蟲學習

爬蟲一段自動抓取網際網路資訊的程式。爬蟲排程器程式入口，主要負責爬蟲程式的控制 url管理器管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url，將url從待爬集合移動到已爬集合 url的儲存...

簡單學習python爬蟲

學爬蟲之前首先知道什麼是爬蟲 ret.content 按照位元組顯示 ret.text 按照字串顯示注以上內容跟下面無關 1.新建乙個python專案spyder 名字自起 2.點選file中的settings 3.點選project spyder下的project interpreter 4....

python爬蟲簡單 python爬蟲簡單版

學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

Python學習 簡單爬蟲及檔案儲存

Python簡單爬蟲學習

簡單學習python爬蟲

python爬蟲簡單 python爬蟲 簡單版

相關推薦

Python學習簡單爬蟲及檔案儲存

python爬蟲簡單 python爬蟲簡單版