Python 簡單網路抓取

我們先簡單的說一下如何抓取乙個網頁的源**，其實我們只需要呼叫python中的requests庫中的get方法就可以了。然後解析的話我們可以通過beautifulsoup庫來進行解析。

requests比較適合做中小型的網路爬蟲開發，如果是要進行大型的網路爬蟲開發那一般使用的就是scrapy框架了。

requests.get() 這個方法其實就是請求獲取指定url位置的資源，對應的http協議中的get方法

requests庫的官網

如下是官網上介紹的一些方法

通過status_code來檢視狀態碼，text來檢視網頁的內容，可以通過r.encoding去修改檔案的編碼

我們在抓取的時候要去看一下這個**是不是有爬蟲協議，有一些**會提供robots.txt這麼乙個檔案，一般來說這個檔案是放在**網域名稱的根目錄下的，裡面制定的是一些規則，希望我們去遵守，如果存在的這個檔案就表示它有自己的爬蟲協議。這個協議中一般都有user-agent: 如果後面為*的話就表示可以允許所有的爬蟲抓取.

disallow 行列出的是要攔截的網頁，以正斜線 (/) 開頭，可以列出特定的**或模式。要遮蔽整個**，使用正斜線即可;要遮蔽某一目錄以及其中的所有內容，在目錄名後新增正斜線;要遮蔽某個具體的網頁，就指出這個網頁。就比如說遮蔽整個**的話就是用

disallow: /

協議中還有可能會出現下面的這個東西

crawl-delay:5

表示本次抓取後下一次抓取前需要等待5秒。

還有就是我們可能會看到有的協議是allow和disallow是一起用的，這個的含義的話，舉個例子來說下吧，如下所示，這裡表示的就是將攔截 qqlk目錄內除file.html 之外的所有頁面

下面來看下csdn的爬蟲協議吧

抓取的**如下，首先如果我們沒有requests庫的話我們要先去安裝requests庫，然後再去寫**

import requests
//請求url
r = requests.get('')
//檢視狀態碼
print(r.status_code)
//輸出內容,text可以自動的推測文字編碼進行解碼
print(r.text)

關於網頁資料的解析，我們可以通過beautifulsoup來完成，它可以從html或者是xml檔案中方便提取資料。下面是官方文件介紹

關於html解析器的選擇我們最好都是去選擇lxml，具體原因可以看文件的解釋。

關於它的使用，這裡就不展開了，可以去看官方文件。

Python 簡單網路抓取

python抓取網路內容

python抓取簡單頁面資訊

python執行緒抓取頁面簡單內容

Python 簡單網路抓取

python抓取網路內容

python抓取簡單頁面資訊

python執行緒抓取頁面簡單內容

相關推薦