pythonl學習筆記 爬蟲的基本常識

2021-09-08 14:03:23 字數 1252 閱讀 1235

robots協議(也稱為爬蟲協議、機械人協議等)的全稱是「網路爬蟲排除標準」(robots exclusion protocol),**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。

如:**網:

豆瓣網:

馬蜂窩:

搜尋引擎和dns解析服務商(dnspod)合作,新**網域名稱將被迅速抓取。但搜尋引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案內容,如標註為nofollow的鏈結,或者是robots協議;另一種則是通過**的站長主動對搜尋引擎提交的**,搜尋引擎則會在接下來派出「蜘蛛」,對該**進行爬取。

可以使用搜尋引擎來估算**大小,如搜尋時新增site。

為了更好地了解**,抓取該**的資訊,我們可先了解一下該**大致所使用的技術架構

builtwith

安裝:(windows)pip install bulitwith;   (linux)sudo pip install builtith

使用:在python互動環境下,輸入:

import builtwith

builtwith.parse("")

有時候需要追尋**的所有者是誰,可以通過python-whois軟體檢視

whois

安裝:(windows)pip install python-whois

使用:在python互動環境下輸入:

import whois

whois.whois("")

python爬蟲筆記(一)requests基本使用

requests是乙個功能強大 簡單易用的 http 請求庫,建議爬蟲使用requests。requests.get url url,params none,headers none,proxies none,cookies none,auth none,verify none,timeout no...

線性基學習筆記

線性基是幹嘛的呢?給定n個數,求所有數的異或和最大是多少?求解這類問題的時候,就需要線性基了 個人感覺線性基本身就一種貪心。首先定義ba se i bas e i 表示最高位1在i位的數是什麼 對於新進來的數tm p tmp 我們先找出他最高位上的1,假設為第 j j 位,然後看一下ba se j ...

線性基 學習筆記

includeusing namespace std using ll long long const int maxn 5e5 5 原來的數 const int maxbit 63 ll a maxn 原來的數 ll p maxbit p j 第j位為最高位1的數 最高位1在第j位的數 int m...