爬蟲 乙個url多頁

2021-08-19 11:24:03 字數 1355 閱讀 6595

import urllib.request

import urllib.parse

from lxml import etree

#鏈結url = 'http://www'

#迴圈得到分頁

for i in range(1,26):

data = urllib.parse.urlencode(query).encode(encoding = 'utf8')

post = urllib.request.request(url,data)

response = urllib.request.urlopen(post)

#獲得源**

page = response.read()

s = etree.html(page)

#查詢需到的資訊

file = s.xpath('//a[@class="link-01"][1]/text()')

print(file)

走了很多坑,python3.x和python2.x有些不同,2.x有urllib、urllib2,3.x只有urllib:

在pytho2.x中使用import urllib——-對應的,在python3.x中會使用import urllib.requesturllib.errorurllib.parse

在pytho2.x中使用import urlparse——-對應的,在python3.x中會使用import urllib.parse

在pytho2.x中使用import urlopen——-對應的,在python3.x中會使用import urllib.request.urlopen

在pytho2.x中使用import urlencode——-對應的,在python3.x中會使用import urllib.parse.urlencode

在pytho2.x中使用import urllib.quote——-對應的,在python3.x中會使用import urllib.request.quote

在pytho2.x中使用cookielib.cookiejar——-對應的,在python3.x中會使用http.cookiejar

在pytho2.x中使用urllib2.request——-對應的,在python3.x中會使用urllib.request.request

乙個小爬蟲

usr bin env python coding utf 8 sina小爬蟲 site http 不能少哦 reptile sina reptitle site print getting the urls.n reptile sina.get urls site reptile sina.sto...

python爬蟲爬取多頁內容

前幾天零組資料庫發文關閉,第乙個念頭是可惜,想著趕緊把資料儲存下來,卻發現爬蟲已經忘得差不多了,趕緊複習一波。不多說,pycharm,啟動!不知道爬啥,隨便找個網頁吧 url 首選獲取目標 html頁面 f12提取請求頭資訊,這裡我們只需ua即可 根據網頁 meta標籤設定編碼格式 如下 impor...

乙個URL的組成

2016 05 08 22 12 659人閱讀收藏 舉報 android 26 url的組成 url由三部分組成 協議型別,主機名和路徑及檔名。通過url可以指定的主要有以下幾種 http ftp gopher telnet file等。url的組成 url的組成 協議 1 protocol 協議 ...