爬蟲基礎知識簡單案例

1.爬蟲基礎

爬蟲概念

什麼是爬蟲

爬蟲是乙個應用程式

是指某乙個用於爬取資料的應用程式

爬取的目標可以使整個網際網路也可以是單獨的某乙個伺服器

在cs結構中爬蟲屬於client 客戶端

爬蟲的價值：

網際網路中最有價值的就是資料

爬蟲中首要任務就是要通過網路取獲取模板伺服器的資料；來為自己創造價值

爬蟲的流程：

首先明確我們的爬蟲是客戶端要爬的資料在伺服器上儲存，

所以需要借助網路程式設計，底層的網路協議已經有現成的封裝不需要自己寫，

資料傳輸已經解決，問題是對方給我的資料我能不能看懂我的資料對方能不能看懂

絕大多數網路傳輸都是採用的http（*****）

http 協議超文字傳輸協議

1.明確要爬取的url位址

2.傳送請求

瀏覽器傳送請求

第三方requests模組 pip install requests

內建的urllib模組

selenium （自動化測試模組）用程式驅動瀏覽器傳送請求

之所以用selenium是因為一些**需要人機互動（點選，拖拽等等操作）

3.接收響應

瀏覽器接受相應後會渲染頁面進行展示無法拿到資料所以更多情況下使用用瀏覽器來分析請求詳情

requests和urllib都會直接返回響應體

selenium 提供了find_element***的介面用於獲取資料

4.解析資料

rebeautifulsoup 封裝了常用的正規表示式

移動端返回的/ajax返回的json資料直接json.load

5.儲存資料

mysql等關係型資料庫

mongodb redis 非關係型資料庫一般用在高併發爬蟲中

介面測試工具postman paw（mac 可以自動生成請求**）

scrapy爬蟲框架

分析請求頭中有用的資訊

1.user-agent 用來識別客戶端型別

2.refer 用來識別使用者從哪個頁面過來的

3.cookie 當頁面需要驗證使用者身份時使用

響應頭:

location 當請求被重定向時就會帶有該欄位可以通過狀態碼30* 來識別重定向

傳送post請求

requests 中

get請求引數放在位址後或是使用params引數來指定一格字典

post請求引數使用data引數來指定是乙個字典

如果是登入請求一般都需要帶token

先傳送請求獲取token的值 token值一定都在乙個form表單中

登入 github

爬蟲基礎知識

大資料時代，要進行資料分析，首先要有資料來源。而學習爬蟲，可以讓我們獲取更多的資料來源，並且這些資料來源可以按我們的目的進行採集，去掉很多無關資料。網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...

爬蟲基礎知識整理

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端主要指瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。網路爬蟲就是根據網頁的位址來尋找網頁的，也就是url。舉乙個簡單的例子，我們在瀏覽器的位址列中輸入的字串就是url，例如 url就是同意資源定位符 un...

爬蟲基礎知識（柒）

1 mongodb 文件資料庫，儲存的是文件 bson json的二進位製化 json資料儲存的就是js中物件和陣列。2 mongodb特點內部執行引擎為js直譯器，把文件儲存成bson結構，在查詢時轉換為js物件，並可以通過熟悉的js語法來操作。3 mongo和傳統型資料庫的不同 4 mongo...

爬蟲基礎知識簡單案例

爬蟲基礎知識

爬蟲基礎知識整理

爬蟲基礎知識（柒）

相關推薦