1,http和https
http :超文字傳輸協議,預設埠號:80
https:http + ssl(安全套接字層)預設埠號:443
2,http常見請求頭
1. host(主機和埠)
2. connect(連線型別)
3. upgrade-insecure-requests(公升級為https請求)
4. user-agent(瀏覽器名稱)
5. accept(傳輸檔案型別)
6. referer(頁面跳轉處)
7. accept-encoding(檔案編輯解碼格式)
8. cookie(cookie)
9. x-requested-with:xmlhttp request(是ajax非同步請求)
3,常見的請求方法:
get:
post:
4,響應狀態碼(status code)
200:成功
302:臨時轉移到新的url
307:臨時轉到新的url
404:not found
500: 伺服器內部錯誤
6,爬蟲的定義
網路爬蟲(又稱網路蜘蛛,機械人),就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。
只要瀏覽器能夠做的事情,原則上,爬蟲都能夠做。
7,通用爬蟲和聚焦爬蟲的區別
搜尋引擎爬蟲流程: 抓取網頁–》資料儲存–》預處理–》提供檢索服務,**排名
聚焦爬蟲流程:url list --》響應內容/提取url----》資料儲存—》入庫
搜尋引擎的侷限性:
8,robots協議
是網路通過robots協議告訴搜尋引擎,哪些**可以爬,哪些不可以爬。
爬蟲基本概念
網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網 並提取網路資料的程式或指令碼 通常可以按照不同的維度對網路爬蟲進行分類 按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲 按照爬取形式,可分為累積式爬蟲和增量式爬蟲 按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲 通用爬蟲 ...
一 python爬蟲學習 爬蟲基本概念
例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...
1 爬蟲基本概念
目錄 一 什麼是網路爬蟲?二 爬蟲分類 三 如何編寫爬蟲 四 爬蟲必備技能 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲,我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...