Python抓取搜尋引擎聯想詞

2021-07-11 06:13:31 字數 1366 閱讀 8005

眾所周知python可以用來寫爬蟲抓取資料。而這個例子是我學習寫的第乙個簡單的爬蟲--抓取

360搜尋引擎搜尋時的聯想詞集合。我們在使用搜尋引

擎搜尋東西時,當我們輸入乙個詞之後搜尋框下方會出現一系列聯想詞如圖所示。

我們nba。如圖所示:

我們將這個url輸入到位址列中網頁返回了聯想詞的集合如圖所示:

#coding utf-8

import urllib2

import urllib

import re

import time

from random import choice

#**ip位址list

iplist=['1.9.189.65:3128','27.24.158.130.80','27.24.158.154:80']

#要抓取的搜尋關鍵字list

keywords=["nba","cba"]

for item in keywords:

#隨機選擇**ip位址

ip=choice(iplist)

word=urllib.quote(item)

url="

8&format=json&fields=word,obdata&word="+word

headers=

#使用隨機**ip位址訪問url

proxy_support=urllib2.proxyhandler()

opener=urllib2.build_opener(proxy_support)

urllib2.install_opener(opener)

req=urllib2.request(url)

for key in headers:

req.add_header(key,headers[key])

html=urllib2.urlopen(req).read()

#提取返回資料

result=re.findall("\"(.*?)\"",html)

#去掉集合中的一些無用資料

r=('query','word','version','result','3.2.1','rec')

for item in result:

if item not in r:

print item

#抓取一次後休息3秒

time.sleep(3)

如何遮蔽搜尋引擎抓取?

作 運營尤其是 排名優化的時候,我們總想著如何來引導搜尋引擎蜘蛛來爬行網頁,收錄。然而,很多時候一些 因為所真對的使用者群體和目標地區不同,並不希望獲得搜尋引擎的光顧,這個時候我們要如何來解決呢?今天和筆者小丹一起來研究一下吧!常見搜尋引擎蜘蛛名稱如下 2 googlebot 谷歌蜘蛛 3 goog...

搜尋引擎 網路爬蟲抓取策略

爬蟲的不同抓取策略,就是利用不同的方法確定待抓取url佇列中url優先順序的。爬蟲的抓取策略有很多種,但不論方法如何,基本目標一致 優先選擇重要網頁進行抓取。網頁的重要性,評判標準不同,大部分採用網頁的流行性進行定義。效果較好或有代表性的抓取策略 1 寬度優先遍歷策略 2 非完全pagerank策略...

如何禁止搜尋引擎收錄抓取

第一種 robots.txt方法 搜尋引擎預設的遵守robots.txt協議,建立robots.txt文字檔案放至 根目錄下,編輯 如下 user agent disallow 通過 即可告訴搜尋引擎不要抓取採取收錄本 第二種 網頁 在 首頁 之間,加入 此標記禁止搜尋引擎抓取 並顯示網頁快照。1 ...