1.配置環境
安裝python,urllib,beautifulsoup4.
pip是python的安裝程式。
驗證安裝是否成功:
beautifulsoup4
安裝beautifulsoup4
linux:
sudo apt-get install python-bs4
mac:
sudo easy_install pip
pip install beautfulsoup4
windows
pip install beautfiulsoup4
pip3 install beautifulsoup4
1.urllib用法
輕鬆模擬瀏覽器
print(resp.read().decode("utf-8")) #嘗試一下print(resp),print(resp.read()),還有print(resp.read().decode('utf-8'))分別都是什麼樣子的。
1, 攜帶user-agent頭
req=request.request(url)
req.add_header(key,value)
resp=request.urlopen(req)
print(resp.read().decode(「utf-8」))
2,使用post
python 爬蟲 網路資料採集 入門知識
1 正規表示式符號與方法 常用符號 匹配任意字元,換行符 除外 匹配前乙個字元0次或無限次 匹配前乙個字元0次或1次 貪心演算法 非貪心演算法 括號內的資料作為結果返回 2 正規表示式符號與方法 常用方法 findall 匹配所有符合規律的內容,返回包含結果的列表 search 匹配並提取第乙個符合...
python爬蟲入門 初步採集
獲取維基百科 的任何頁面並提取頁面鏈結 import urllib2 import bs4 html urllib2.urlopen bsobj bs4.beautifulsoup html.read lxml for link in bsobj.find a if href in link.att...
Python網路資料採集
from urllib.request import urlopen from bs4 import beautifulsoup import re pages set defgetlinks pageurl global pages html urlopen pageurl bsobj beaut...