import urllib.request
def gethtml(url):
page=urllib.request.urlopen(url)
html=page.read()
return html
html=gethtml(「
print(html)
列印結果如下:
結果正確進一步儲存爬蟲結果
import urllib.request
f=open(「./title.html」,」w」)
def gethtml(url):
page=urllib.request.urlopen(url)
html=page.read()
return html
html=gethtml(「
print(html)
f.write(html)
然後就報錯了:
折騰好久,終於找到原因,檔案開啟方式有問題,把之前的開啟語句修改為用二進位制方式開啟就沒有問題
import urllib.request
f=open(「./title.html」,」wb+」)
def gethtml(url):
page=urllib.request.urlopen(url)
html=page.read()
return html
html=gethtml(「
print(html)
f.write(html)
結果就正確了!
記錄下來共勉。
python3爬蟲第一步 傳送請求
引入request,呼叫方法前面都是用request來呼叫 python3把urllib和urllib2封裝了 from urllib import request 像指定 發請求 res request.urlopen 用read 讀取響應內容,並且儲存到content裡面 content res...
Python3 程式設計第一步
這個例子介紹了幾個新特徵。1.a,b b,a b 第一行包含了乙個復合賦值 變數 a 和 b 同時得到新值 0 和 1。最後一行再次使用了同樣的方法,可以看到,右邊的表示式會在賦值變動之前執行。右邊表示式的執行順序是從左往右的 2.end 關鍵字 關鍵字end可以用於將結果輸出到同一行,或者在輸出的...
4chan 爬蟲 爬蟲第一步 爬取網頁
一 安裝庫 爬蟲主要使用python 字串 urllib selenium phantomjs beautifulsoup。還另外需要pip install httplib2。由於案例是python2,一些語句使用python3時會報錯 1 import urllib.request 2 write...