爬蟲是什麼:
爬取網際網路上的資訊
資料探勘->資料清洗(得到有效的資訊)
爬蟲分類:
抓取網頁 -> 資料儲存 -> 預處理 -> 提供檢索,**排名
前端:網頁展現
中間層:資料處理
資料庫:資料儲存
伺服器(響應)客戶端(請求)
基本格式:scheme://host[:port#]/path/.../[?query-string][#anchor]
scheme:協議
port#:伺服器的埠(如果是走協議預設埠,預設埠80)
query-string:引數,傳送給http伺服器的資料
anchor:錨(跳轉到網頁的指定錨點位置)
get是從伺服器上獲取資料,post是向伺服器傳輸資料,post更加安全
post請求:引數在請求體當中,訊息長度沒有限制而且以隱式的方式進行傳送,通常用來向http伺服器提交量比較大的資料,請求引數包含在"content-type"訊息頭里,指明該訊息體的**型別和編碼
按下f12,進入開發者模式;
python爬蟲入門初步認識
python簡單的爬蟲技術,這裡我用的是python3.x版面進行研究,主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境 1 urllib python3.x官方基礎模組 2 beautifulsoup4 python3.x第三方模組 使用前需要安裝beautifulsou...
python爬蟲甲殼 python爬蟲(一)
一 http協議 1.基本概念 http,hypertext transfer transfer peotocol,超文字傳輸協議 http是乙個基於 請求與響應 模式的 無狀態的應用層協議 http協議採用url作為定位網路資源的標識,url格式如下 port 埠號,預設埠為80 path 請求資...
Python爬蟲(一) 了解爬蟲
爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源 瀏覽網頁的過程其實就是使用者輸入 之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案...