url:統一資源定位符
聚焦爬蟲:根據特定的需求,從網上把資料去下來
爬蟲實現的思路:
網頁的特點:每個網頁有自己的url
網頁是由html組成的
網頁傳輸的時候使用http和https協議
爬取的思路:
使用乙個url
寫python**,模擬瀏覽器傳送http請求
解析資料,提取出來指定的資料,通過一定的規則來進行。
urllib庫
作用:是python用來模擬http請求的庫,他是python自帶的庫
urllib.request 模擬瀏覽器傳送求情
urllib.parse 處理url或是他們的引數
urllib.error 丟擲異常,用來處理傳送請求時候出現的異常
urllib.request.urlopen(): 專門來處理url進行資料的讀取
response.read():以二進位制來進行資料的讀取
網上能碰到的編碼個是只有兩種
gbkutf8
二進位制轉化成為字串:decode() 相當於解碼
字串變為二進位制:encode() 相當於編碼
爬蟲學習(一)
def parse one page html pattern re.compile src re.s items re.findall pattern,html for item in items yield def write to file content with open result.t...
爬蟲學習(一)
為了從網際網路上批量獲取資料,研究了下spider,在此記錄一筆學習經歷。今天先了解下robots協議,也叫爬蟲協議,全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。我們可以自定義爬蟲所使用的agent...
python 爬蟲學習一
爬取目標 為aspx 使用到了 viewstate eventvalidation cookie來驗證。使用beautifulsoup來解析網頁內容。encoding utf 8 from bs4 import beautifulsoup import urllib import urllib2 d...