import requests
# 獲取**資訊
response = requests.get(""); #生成乙個response物件
#response.encoding = "utf-8"; #設定接收編碼格式
print("狀態碼:" + str(response.status_code)); #列印狀態碼
#print(response.text); #輸出爬取的資訊
#儲存檔案
file = open("d:\\baidu.html","w",encoding="utf") #開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制
file.write(response.text);
file.close();
知乎資料抓取及儲存檔案:
import requests
#response = requests.get( "") #第一次訪問知乎,不設定頭部資訊
#print( "第一次,不設頭部資訊,狀態碼:"+response.status_code )# 沒寫headers,不能正常爬取,狀態碼不是 200
#下面是可以正常爬取的區別,更改了user-agent欄位
headers = #設定頭部資訊,偽裝瀏覽器
response = requests.get("" , headers=headers); #get方法訪問,傳入headers引數,
print("狀態碼:" + str(response.status_code)); # 200!訪問成功的狀態碼
#print(response.text);
#儲存檔案
file = open("d:\\zhuhu.html","w",encoding="utf") #開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制
file.write(response.text);
file.close();
儲存:
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get("") #get方法的到響應
file = open("d:\\baidu_logo.gif","wb") #開啟乙個檔案,wb表示以二進位制格式開啟乙個檔案只用於寫入
file.write(response.content) #寫入檔案
file.close()#關閉操作,執行完畢後去你的目錄看一眼有沒有儲存成功
Python簡單爬蟲學習
爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...
簡單學習python爬蟲
學爬蟲之前首先知道什麼是爬蟲 ret.content 按照位元組顯示 ret.text 按照字串顯示 注 以上內容跟下面無關 1.新建乙個python專案spyder 名字自起 2.點選file中的settings 3.點選project spyder下的project interpreter 4....
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...