眾所周知python可以用來寫爬蟲抓取資料。而這個例子是我學習寫的第乙個簡單的爬蟲--抓取
360搜尋引擎搜尋時的聯想詞集合。我們在使用搜尋引
擎搜尋東西時,當我們輸入乙個詞之後搜尋框下方會出現一系列聯想詞如圖所示。
我們nba。如圖所示:
我們將這個url輸入到位址列中網頁返回了聯想詞的集合如圖所示:
#coding utf-8
import urllib2
import urllib
import re
import time
from random import choice
#**ip位址list
iplist=['1.9.189.65:3128','27.24.158.130.80','27.24.158.154:80']
#要抓取的搜尋關鍵字list
keywords=["nba","cba"]
for item in keywords:
#隨機選擇**ip位址
ip=choice(iplist)
word=urllib.quote(item)
url="
8&format=json&fields=word,obdata&word="+word
headers=
#使用隨機**ip位址訪問url
proxy_support=urllib2.proxyhandler()
opener=urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
req=urllib2.request(url)
for key in headers:
req.add_header(key,headers[key])
html=urllib2.urlopen(req).read()
#提取返回資料
result=re.findall("\"(.*?)\"",html)
#去掉集合中的一些無用資料
r=('query','word','version','result','3.2.1','rec')
for item in result:
if item not in r:
print item
#抓取一次後休息3秒
time.sleep(3)
如何遮蔽搜尋引擎抓取?
作 運營尤其是 排名優化的時候,我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁,收錄。然而,很多時候一些 因為所真對的使用者群體和目標地區不同,並不希望獲得搜尋引擎的光顧,這個時候我們要如何來解決呢?今天和筆者小丹一起來研究一下吧!常見搜尋引擎蜘蛛名稱如下 2 googlebot 谷歌蜘蛛 3 goog...
搜尋引擎 網路爬蟲抓取策略
爬蟲的不同抓取策略,就是利用不同的方法確定待抓取url佇列中url優先順序的。爬蟲的抓取策略有很多種,但不論方法如何,基本目標一致 優先選擇重要網頁進行抓取。網頁的重要性,評判標準不同,大部分採用網頁的流行性進行定義。效果較好或有代表性的抓取策略 1 寬度優先遍歷策略 2 非完全pagerank策略...
如何禁止搜尋引擎收錄抓取
第一種 robots.txt方法 搜尋引擎預設的遵守robots.txt協議,建立robots.txt文字檔案放至 根目錄下,編輯 如下 user agent disallow 通過 即可告訴搜尋引擎不要抓取採取收錄本 第二種 網頁 在 首頁 之間,加入 此標記禁止搜尋引擎抓取 並顯示網頁快照。1 ...