import urllib.request
import urllib.parse
from lxml import etree
#鏈結url = 'http://www'
#迴圈得到分頁
for i in range(1,26):
data = urllib.parse.urlencode(query).encode(encoding = 'utf8')
post = urllib.request.request(url,data)
response = urllib.request.urlopen(post)
#獲得源**
page = response.read()
s = etree.html(page)
#查詢需到的資訊
file = s.xpath('//a[@class="link-01"][1]/text()')
print(file)
走了很多坑,python3.x和python2.x有些不同,2.x有urllib、urllib2,3.x只有urllib:
在pytho2.x中使用import urllib
——-對應的,在python3.x中會使用import urllib.request
,urllib.error
,urllib.parse
。
在pytho2.x中使用import urlparse
——-對應的,在python3.x中會使用import urllib.parse
。
在pytho2.x中使用import urlopen
——-對應的,在python3.x中會使用import urllib.request.urlopen
。
在pytho2.x中使用import urlencode
——-對應的,在python3.x中會使用import urllib.parse.urlencode
。
在pytho2.x中使用import urllib.quote
——-對應的,在python3.x中會使用import urllib.request.quote
。
在pytho2.x中使用cookielib.cookiejar
——-對應的,在python3.x中會使用http.cookiejar
。
在pytho2.x中使用urllib2.request
——-對應的,在python3.x中會使用urllib.request.request
。
乙個小爬蟲
usr bin env python coding utf 8 sina小爬蟲 site http 不能少哦 reptile sina reptitle site print getting the urls.n reptile sina.get urls site reptile sina.sto...
python爬蟲爬取多頁內容
前幾天零組資料庫發文關閉,第乙個念頭是可惜,想著趕緊把資料儲存下來,卻發現爬蟲已經忘得差不多了,趕緊複習一波。不多說,pycharm,啟動!不知道爬啥,隨便找個網頁吧 url 首選獲取目標 html頁面 f12提取請求頭資訊,這裡我們只需ua即可 根據網頁 meta標籤設定編碼格式 如下 impor...
乙個URL的組成
2016 05 08 22 12 659人閱讀收藏 舉報 android 26 url的組成 url由三部分組成 協議型別,主機名和路徑及檔名。通過url可以指定的主要有以下幾種 http ftp gopher telnet file等。url的組成 url的組成 協議 1 protocol 協議 ...