一 Python爬蟲認識爬蟲

爬蟲是什麼：

爬取網際網路上的資訊

資料探勘->資料清洗（得到有效的資訊）

爬蟲分類：

抓取網頁 -> 資料儲存 -> 預處理 -> 提供檢索，**排名

前端：網頁展現　　　　　　　　

中間層：資料處理　　　　　　　

資料庫：資料儲存　　　　　　

伺服器（響應）客戶端（請求）　　　　　　　　　

基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]

scheme：協議

port#：伺服器的埠（如果是走協議預設埠，預設埠80）

query-string：引數，傳送給http伺服器的資料

anchor：錨（跳轉到網頁的指定錨點位置）

get是從伺服器上獲取資料，post是向伺服器傳輸資料，post更加安全

post請求：引數在請求體當中，訊息長度沒有限制而且以隱式的方式進行傳送，通常用來向http伺服器提交量比較大的資料，請求引數包含在"content-type"訊息頭里，指明該訊息體的**型別和編碼

按下f12，進入開發者模式；

python爬蟲入門初步認識

python簡單的爬蟲技術，這裡我用的是python3.x版面進行研究，主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境 1 urllib python3.x官方基礎模組 2 beautifulsoup4 python3.x第三方模組使用前需要安裝beautifulsou...

python爬蟲甲殼 python爬蟲（一）

一 http協議 1.基本概念 http，hypertext transfer transfer peotocol，超文字傳輸協議 http是乙個基於請求與響應模式的無狀態的應用層協議 http協議採用url作為定位網路資源的標識，url格式如下 port 埠號，預設埠為80 path 請求資...

Python爬蟲（一）了解爬蟲

爬蟲即網路爬蟲，即將網上的資源抓取下來。比如在抓取乙個網頁，在這個網中發現一條道路，這個道路就是指向網頁的超連結那就可以抓到該網的資源瀏覽網頁的過程其實就是使用者輸入之後，經過dns伺服器，找到伺服器主機，向伺服器發出乙個請求，伺服器經過解析之後，傳送給使用者的瀏覽器html,js,css等檔案...

一 Python爬蟲 認識爬蟲

python爬蟲入門初步認識

python爬蟲甲殼 python爬蟲（一）

Python爬蟲（一） 了解爬蟲

相關推薦

一 Python爬蟲認識爬蟲

Python爬蟲（一）了解爬蟲