什麼是網路爬蟲?
網路爬蟲又稱網路蜘蛛,是指按照某種規則在網路上爬取所需內容的指令碼程式。眾所周知,每個網頁通常包含其他網頁的入口,網路爬蟲則通過乙個**依次進入其他**獲取所需內容。
乙個小案例:python實現英漢互譯
import urllib.request
import urllib.parse
import json
import time
while
true
: content=
input
('請輸入需要翻譯的內容(輸入「#」退出程式):'
)if content==
'#':
break
url=
''# data=
data[
'i']
= content
data[
'from']=
'auto'
data[
'to']=
'auto'
data[
'smartresult']=
'dict'
data[
'client']=
'fanyideskweb'
data[
'salt']=
'15893290522353'
data[
'sign']=
'abdca11d8e8df2c27675e95fd288997f'
data[
'ts']=
'1589329052235'
data[
'bv']=
'acc97416ef67184f42e5a4a03c3d52ab'
data[
'doctype']=
'json'
data[
'version']=
'2.1'
data[
'keyfrom']=
'fanyi.web'
data[
'action']=
'fy_by_clickbuttion'
data=urllib.parse.urlencode(data)
.encode(
'utf-8'
) response=urllib.request.urlopen(url,data)
html=response.read(
).decode(
'utf-8'
)#解碼
#print(html)
target=json.loads(html)
print
('翻譯結果:%s'
%(target[
'translateresult'][
0][0
]['tgt'])
) time.sleep(5)
#每翻譯一次,讓程式休息5秒,隱藏爬蟲蹤跡。或者採用『**』也可以實現隱藏。
注意:本案例中,"url"和"form data"部分需要大家從自己電腦上的有道翻譯網頁裡點「審查元素」,找出上面這些引數,然後進行替換,不能直接照搬。下圖是我電腦上的內容:
這樣就可以進行翻譯了。程式執行結果為:
請輸入需要翻譯的內容(輸入「#」退出程式):i love you!
翻譯結果:我愛你!
請輸入需要翻譯的內容(輸入「#」退出程式):我愛你!
翻譯結果:i love you!
請輸入需要翻譯的內容(輸入「#」退出程式):#
>>
>
乙個小爬蟲
usr bin env python coding utf 8 sina小爬蟲 site http 不能少哦 reptile sina reptitle site print getting the urls.n reptile sina.get urls site reptile sina.sto...
學習爬蟲基礎5 乙個簡單的小案例
會使用到urllib中的 urllib.urlencode 方法來編碼傳送請求時候的 請求引數 url編碼轉換 urllib的urlencode urllib 模組僅可以接受url,不能建立 設定了headers 的request 類例項 但是 urllib 提供 urlencode 方法用來產生g...
乙個VUE的小案例
商品列表 router link router link to newslist 新聞列表 router link br router view router view div body script 1.定義好元件 const newslistcomponent vue.extend const ...