Python抓取搜尋引擎聯想詞

眾所周知python可以用來寫爬蟲抓取資料。而這個例子是我學習寫的第乙個簡單的爬蟲--抓取

360搜尋引擎搜尋時的聯想詞集合。我們在使用搜尋引

擎搜尋東西時，當我們輸入乙個詞之後搜尋框下方會出現一系列聯想詞如圖所示。

我們nba。如圖所示：

我們將這個url輸入到位址列中網頁返回了聯想詞的集合如圖所示：

#coding utf-8
import urllib2
import urllib
import re
import time
from random import choice
#**ip位址list
iplist=['1.9.189.65:3128','27.24.158.130.80','27.24.158.154:80']
#要抓取的搜尋關鍵字list
keywords=["nba","cba"]
for item in keywords:
#隨機選擇**ip位址
ip=choice(iplist)
word=urllib.quote(item)
url="
8&format=json&fields=word,obdata&word="+word
headers=
#使用隨機**ip位址訪問url
proxy_support=urllib2.proxyhandler()
opener=urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
req=urllib2.request(url)
for key in headers:
req.add_header(key,headers[key])
html=urllib2.urlopen(req).read()
#提取返回資料
result=re.findall("\"(.*?)\"",html)
#去掉集合中的一些無用資料
r=('query','word','version','result','3.2.1','rec')
for item in result:
if item not in r:
print item
#抓取一次後休息3秒
time.sleep(3)

如何遮蔽搜尋引擎抓取？

作運營尤其是排名優化的時候，我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁，收錄。然而，很多時候一些因為所真對的使用者群體和目標地區不同，並不希望獲得搜尋引擎的光顧，這個時候我們要如何來解決呢？今天和筆者小丹一起來研究一下吧！常見搜尋引擎蜘蛛名稱如下 2 googlebot 谷歌蜘蛛 3 goog...

搜尋引擎網路爬蟲抓取策略

爬蟲的不同抓取策略，就是利用不同的方法確定待抓取url佇列中url優先順序的。爬蟲的抓取策略有很多種，但不論方法如何，基本目標一致優先選擇重要網頁進行抓取。網頁的重要性，評判標準不同，大部分採用網頁的流行性進行定義。效果較好或有代表性的抓取策略 1 寬度優先遍歷策略 2 非完全pagerank策略...

如何禁止搜尋引擎收錄抓取

第一種 robots.txt方法搜尋引擎預設的遵守robots.txt協議，建立robots.txt文字檔案放至根目錄下，編輯如下 user agent disallow 通過即可告訴搜尋引擎不要抓取採取收錄本第二種網頁在首頁之間，加入此標記禁止搜尋引擎抓取並顯示網頁快照。1 ...

Python抓取搜尋引擎聯想詞

如何遮蔽搜尋引擎抓取？

搜尋引擎 網路爬蟲抓取策略

如何禁止搜尋引擎收錄抓取

相關推薦

搜尋引擎網路爬蟲抓取策略