4chan 爬蟲 爬蟲第一步 爬取網頁

2021-10-13 07:50:05 字數 571 閱讀 5585

一、安裝庫

爬蟲主要使用python(字串|urllib)+selenium+phantomjs+beautifulsoup。還另外需要pip install httplib2。

由於案例是python2,一些語句使用python3時會報錯:

1、import urllib.request

2、write() argument must be str, not bytes

原因:python3給open函式新增了名為encoding的新引數,而這個新引數的預設值卻是『utf-8』。這樣在檔案控制代碼上進行read和write操作時,系統就要求開發者必須傳入包含unicode字元的例項,而不接受包含二進位制資料的bytes例項。

解決方法:使用二進位制寫入模式(『wb』)來開啟待操作檔案,而不能像原來那樣,採用字元寫入模式(『w』)

知識點:

1、urlopen(url, data, timeout)

url=url,data=訪問url時要傳送的資料,timeout=超時時間(2,3可為空)

建立乙個表示遠端url的類檔案物件,然後像本地的檔案一樣操作這個類檔案物件來獲取遠端資料

爬蟲第一步

注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...

Python爬蟲 反爬蟲第一步

request urllib2.request headers headers response urllib2.urlopen request html response.read decode utf 8 print html print response.getcode response 是伺...

爬蟲第一步 獲取資料

在python中,可通過requests庫來獲取資料。windows系統 在cmd命令視窗中輸入 pip install requests mac系統 在terminal終端軟體中輸入 pip3 install requests requests.get 用法如下 引入requests庫 impor...