爬蟲學習（一）

url：統一資源定位符

聚焦爬蟲：根據特定的需求，從網上把資料去下來

爬蟲實現的思路：

網頁的特點：每個網頁有自己的url

網頁是由html組成的

網頁傳輸的時候使用http和https協議

爬取的思路：

使用乙個url

寫python**，模擬瀏覽器傳送http請求

解析資料，提取出來指定的資料，通過一定的規則來進行。

urllib庫

作用：是python用來模擬http請求的庫，他是python自帶的庫

urllib.request 模擬瀏覽器傳送求情

urllib.parse 處理url或是他們的引數

urllib.error 丟擲異常，用來處理傳送請求時候出現的異常

urllib.request.urlopen(): 專門來處理url進行資料的讀取

response.read()：以二進位制來進行資料的讀取

網上能碰到的編碼個是只有兩種

gbkutf8

二進位制轉化成為字串：decode() 相當於解碼

字串變為二進位制：encode() 相當於編碼

爬蟲學習（一）

def parse one page html pattern re.compile src re.s items re.findall pattern,html for item in items yield def write to file content with open result.t...

爬蟲學習（一）

為了從網際網路上批量獲取資料，研究了下spider，在此記錄一筆學習經歷。今天先了解下robots協議，也叫爬蟲協議，全稱是網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。我們可以自定義爬蟲所使用的agent...

python 爬蟲學習一

爬取目標為aspx 使用到了 viewstate eventvalidation cookie來驗證。使用beautifulsoup來解析網頁內容。encoding utf 8 from bs4 import beautifulsoup import urllib import urllib2 d...

爬蟲學習（一）

爬蟲學習（一）

爬蟲學習（一）

python 爬蟲學習一

相關推薦