什麼是爬蟲:
- 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。
-爬蟲究竟是合法還是違法的?
如何在使用編寫爬蟲的過程中避免進入局子的厄運呢?
- 時常的優化自己的程式,避免干擾被訪問**的正常執行
- 在使用,傳播爬取到的資料時,審查抓取到的內容,如果發現了涉及到使用者隱私商業機密等敏感內容需要及時停止爬取或傳播
爬蟲在使用場景中的分類
- 通用爬蟲:
抓取系統重要組成部分。抓取的是一整張頁面資料。
- 聚焦爬蟲:
是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。
- 增量式爬蟲:
檢測**中資料更新的情況。只會抓取**中最新更新出來的資料。
爬蟲的矛與盾:
反爬機制
門戶**,可以通過制定相應的策略或者技術手段,防止爬蟲程式進行**資料的爬取。
http協議
- 概念:就是伺服器和客戶端進行資料互動的一種形式。
常用請求頭資訊
- user-agent:請求載體的身份標識
- connection:請求完畢後,是斷開連線還是保持連線
常用響應頭資訊
- content-type:伺服器響應回客戶端的資料型別
https協議:
- 安全的超文字傳輸協議
加密方式
- 對稱秘鑰加密
- 非對稱秘鑰加密
- 證書秘鑰加密
Python爬蟲入門一
作為入門學習,我選擇了乙個靜態 生物資訊交流分享論壇 public library of bioinformatics plob 第一次嘗試,只抓取網頁文字部分。安裝requests庫和bs4庫 前者用來鏈結 和處理http協議 後者將網頁變成結構化資料,方便抓取。easy install requ...
Python爬蟲入門 一
python版本 2.7 首先爬蟲是什麼?網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。根據我的經驗,要學習python爬蟲,我們要學習的共有以下幾點 首先,我們要用python寫爬蟲,肯定要了解p...
python 爬蟲入門 一)
今天學了python爬蟲,很有意思,寫一下部落格記錄一下學習過程。最基本的爬蟲僅需要urllib庫,re庫和chardet庫 urllib庫是python內建的處理網路請求的庫。對於基本的爬蟲我們僅僅需要使用他的內部模組urllib.requset。urllib.request中所要使用的函式 ur...