資料爬蟲(一):爬蟲的基本原理介紹
通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器響應。
獲取響應內容:
解析內容:
得到的內容可能是html,可以用正規表示式、網頁解析庫進行解析。可能是json,可以直接轉為json物件解析,可能是二進位制資料,可以做儲存或者進一步的處理。
儲存資料:
儲存形式多樣,可以存為文字,也可以儲存至資料庫,或者儲存特定格式的檔案。
瀏覽器就傳送訊息給該**所在的伺服器,這個過程叫做http request。
response:
伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。
主要有get、post兩種型別,另外還有head、put、delete、options等。
請求url:
請求頭:
包含請求時的頭部資訊,如user-agent、host、cookies等資訊。
請求體:
請求時額外攜帶的資料如表單提交時的表單資料
有多種響應狀態,如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤
響應頭:
如內容型別、內容長度、伺服器資訊、設定cookie等等。
響應體:
最主要的部分,包含了請求資源的內容,如網頁html、二進位制資料等。
如html文件、json格式文字等。
:獲取到的是二進位制檔案,儲存為格式。
and so on:
只要是能請求到的,都能獲取。
json解析
正規表示式
beautifulsoup
pyquery
xpath
網頁文字:如html文件、json格式文字等。
:獲取到的是二進位制檔案,儲存為格式。
and so on:只要是能請求到的,都能獲取。
七、解析方式
直接處理
json解析
正規表示式
beautifulsoup
pyquery
xpath
純文字、json、xml等。
關係型資料庫:
如mysql、oracle、sql server等具有結構化表結構形式儲存。
非關係型資料庫:
如mongodb、redis等key-value形式儲存。
二進位制檔案:
爬蟲(一)初識爬蟲
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...
爬蟲 一 爬蟲簡介
很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...
爬蟲資料之爬蟲流程
多頁面爬蟲流程 有的網頁存在多頁的情況,每頁的網頁結構都相同或類似,這種型別的網頁爬蟲流 程為 手動翻頁並觀察各網頁的url 構成特點,構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式,儲存資料。迴圈完畢,結束爬蟲程式 跨頁面爬蟲流程 定義爬取函...