# -*- coding: utf-8 -*-
import requests_html
import json
import time
# 格式化數值函式
defnum
(num)
: nums =
0 num = num.replace(
'找到相關結果約',''
).replace(
'個','')
num = num.replace(
'找到約',''
).replace(
'條結果',''
) num = num.replace(
',','')
.replace(
' ','')
if'億'
in num:
numr = num.split(
'億')
nums +=
int(numr[0]
)*10000
*10000
num = numr[1]
if'萬'
in num:
numr = num.split(
'萬')
nums +=
int(numr[0]
)*10000
num = numr[1]
ifnot num:num=
0 nums +=
int(num)
return nums
# 請求介面
''# 建立請求
s = requests_html.htmlsession(
)s.headers.update(
)# 抽取收錄數函式,考慮量比較小,此函式不考慮效率問題
defgetnum
(url,sname='')
:ifnot url:
print
('[warnning]'
,'請設定url'
,'沒有匹配到結果'
,url)
return
0if text :
return num(text.text)
else
:print
('[warnning]'
,'沒有匹配到結果,通常為反爬限制'
,url)
return
0except baseexception as e:
# print(r.text)
print
('[error]'
,'抽取失敗'
,url)
print
('[error]'
,'抽取失敗詳情'
,e)return
0# 主體函式
defchecksite
(domainarr=
,sleep=
0,filename='')
:# 判斷是否有引數
ifnot domainarr:
print
('[warnning]'
,'請設定domain'
)return
print
('[running]'
,'共獲取網域名稱數:'
,len
(domainarr)
)# 構建請求連線
)# 搜狗
num = getnum(queryurlsogou%query,
'sogou'
)print
('[running]'
,domain,
'sogou'
,num)
)# 神馬
num = getnum(queryurlshenma%query,
'shenma'
)print
('[running]'
,domain,
'shenma'
,num)
)# 好搜,雙端介面引數不一樣
if domain.split(
'.')[0
]=='m':
num = getnum(queryurlhaosoum%query,
'haosoum'
)else
: num = getnum(queryurlhaosou%query,
'haosou'
)print
('[running]'
,domain,
'haosou'
,num)
)# 休眠間隔
if sleep:
print
('[running]'
,'休眠:'
,sleep)
time.sleep(sleep)
# print(json.dumps(data,indent=4))
print
('[running]'
,json.dumps(data)
)if filename:
print
('[running]'
,'執行儲存檔案'
,filename)
# 儲存新資料
with
open
(filename,
'w', encoding=
'utf-8'
)as filejson:
filejson.write(json.dumps(data)
)if __name__ ==
'__main__'
: domainr =
['www.seowhy.com'
,# 'www.aizhan.com',
# 'm.seowhy.com',
# 'm.aizhan.com',
] sleep =
0 date = time.strftime(
"%y%m%d"
,time.localtime(
int(time.time())
))filename =
'site.%s.json'
%date
checksite(domainr,sleep,filename)
# 指令碼說明:
# python3.6版本
# 需要安裝requests-html模組 pip install requests_html
# 搜狗經常反爬,不宜大批量網域名稱查詢
# 搜狗雙端結果相同 sogou
# 好搜雙端不同 haosou
# 神馬只有m端 shenma
# parama domainarr array 查詢網域名稱陣列
# parama sleep intval 查詢迴圈休眠時間
# parama filename string 儲存檔名稱
# by 薛一
# 2018-07-08
如何禁止搜尋引擎收錄?
很多站長都認為有搜尋引擎收錄是一件好事,首先是自己的 得到了承認,通過搜尋引擎也能帶來一定的流量。其實並不完全準確,某些比較不知 名的搜尋引擎,即便收錄了許多網頁,並且天天更新,卻不能帶來實在的利益,反而浪費了伺服器頻寬 國內的主機一般宣稱不限流量,但國外的 dreamhost這樣的主機都是限制流量...
禁止搜尋引擎收錄的方法
禁止搜尋引擎收錄的方法 什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄...
禁止搜尋引擎收錄的方法
1.什麼是robots.txt檔案?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做 robots.txt的純文字檔案,這個檔案用於指定spider在您 上的抓取範圍。您可以在您的 中建立乙個robots.txt,...