pythonl學習筆記爬蟲的基本常識

robots協議（也稱為爬蟲協議、機械人協議等）的全稱是「網路爬蟲排除標準」（robots exclusion protocol），**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。

如：**網：

豆瓣網：

馬蜂窩：

搜尋引擎和dns解析服務商（dnspod）合作，新**網域名稱將被迅速抓取。但搜尋引擎蜘蛛的爬行是被輸入了一定的規則的，它需要遵從一些命令或檔案內容，如標註為nofollow的鏈結，或者是robots協議；另一種則是通過**的站長主動對搜尋引擎提交的**，搜尋引擎則會在接下來派出「蜘蛛」，對該**進行爬取。

可以使用搜尋引擎來估算**大小，如搜尋時新增site。

為了更好地了解**，抓取該**的資訊，我們可先了解一下該**大致所使用的技術架構

builtwith

安裝：（windows）pip install bulitwith；（linux）sudo pip install builtith

使用：在python互動環境下，輸入：

import builtwith

builtwith.parse("")

有時候需要追尋**的所有者是誰，可以通過python-whois軟體檢視

whois

安裝：（windows）pip install python-whois

使用：在python互動環境下輸入：

import whois

whois.whois("")

pythonl學習筆記爬蟲的基本常識

python爬蟲筆記（一）requests基本使用

線性基學習筆記

線性基學習筆記

pythonl學習筆記 爬蟲的基本常識

python爬蟲筆記（一）requests基本使用

線性基學習筆記

線性基 學習筆記

相關推薦

pythonl學習筆記爬蟲的基本常識

線性基學習筆記