記錄下學習爬蟲中遇到的坑
python2要支援中文需要在頭部新增
# -*- coding: utf-8 -*-
python3直接支援中文
python2中直接可以呼叫urllib2
python3中需要
from urllib import request
python2中直接可以獲取response的文字
python3中需要對獲取的文字進行轉碼
response.body.decode('utf-8')#根據不同的格式轉碼
python2直接print 後邊跟你要輸出的就可以了
python3需要加上()
print
()
# 注意,python2.x預設編碼環境是ascii,當和取回的資料編碼格式不一致時,可能會造成亂碼;
# 我們可以指定儲存內容的編碼格式,一般情況下,我們可以在**最上方新增:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 這三行**是python2.x裡解決中文編碼的****,經過這麼多年的吐槽後python3學乖了,預設編碼是unicode了...(祝大家早日擁抱python3)
python爬蟲筆記 持續更新
爬蟲主要分為兩個部分,第乙個是網頁介面的獲取,第二個是網頁介面的解析 爬蟲的原理是利用 模擬瀏覽器訪問 與瀏覽器不同的是,爬蟲獲取到的是網頁的源 沒有了瀏覽器的翻譯效果。這裡我們使用urllib2進行 頁面的獲取 首先匯入urllib2模組包 import urllib2 呼叫urllib2中的ur...
Python爬蟲學習 持續更新
當伺服器通過request的header中的使用者資訊防止爬取時,修改header改為乙個瀏覽器就好 import requests from bs4 import beautifulsoup kv r requests.get headers kv print r.encoding soup be...
python爬蟲scrapy(持續更新)
pip install scrapy scrapy startproject stock 建立資料夾 scrapy genspider stock xx 網域名稱 建立爬蟲py檔案 scrapy crawl stock o json spider中必須包含stock.py檔案 scrapy craw...