爬蟲的過程
1.首先需要了解業務需求
2.根據需求,尋找**
3.將**資料獲取到本地 (可以通過urllib,requests等包)
4.定位資料(re xpath css json等)
5.儲存資料(mysql redis 檔案格式)
(2、爬取內容並寫入同檔案目錄下乙個新的html檔案)
from urllib import request
#確定目標
base_url=』
#發起http請求,返回類檔案物件
response=request.urlopen(url=base_url)
html=response.read()
html=html.decode(『utf-8』)
#寫入乙個同目錄下乙個新的html檔案
當用上面的**去爬取某些網頁時會獲取不到資料,此時就需要加入 headers 頭
二、西刺**html頁面
from urllib import request
url = 『
req = request.request(url,headers=headers)
response = request.urlopen(req)
info = response.read() #切記response僅僅返回一次
with open(『xicidaili.html』,』wb』) as f:
f.write(info)
#a. get(url, headers=none)
def get(url, headers=none):
return urlrequests(url, headers=headers)
def post(url, form, headers=none):
return urlrequests(url, form, headers=headers)
#b. post(url, form, headers=none)
傳入url
user_agent
headers
定義request
urlopen
返回byte陣列
return html_bytes
ifname== 『main『:
# url = 『
# form =
# html_bytes = post(url, form=form)
# print(html_bytes)
url = ''
html_byte = get(url)
print(html_byte)
Scrapy爬蟲筆記 1
1 安裝 使用pip install scrapy 假如使用了fiddler作為 伺服器進行除錯分析,為了避免該軟體的影響 開啟fiddler,進入 tools fiddler options connections 將 act as system proxy on startup 和 monito...
python爬蟲筆記(1)
人稱君子協議,規定了 中哪些資料是可以被爬取的 哪些 是不可以被爬取的。相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密 requests模組 python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。作用 模擬瀏覽器傳送請求。如何使用 import...
爬蟲學習筆記1
目錄通過程式設計向網路伺服器請求資料 html表單 然後解析html,提取出自己想要的資料。哇 為何有種相見恨晚的趕腳?基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn....