3.1.1
檢視cookie(chrome版):
3.4-爬取貓眼電影排行
**,崔老師的部落格有,說說我遇到的問題,和記錄
1,關於這個正規表示式匹配問題:
pattern = re.compile(
'.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',
#1,匹配 排名
#.*?board-index.*?>(.*?)
# .*?匹配:(.*?)
#第乙個.*?找到name,
#第二個.*?找到a
#第三個.*?找到》
#第四個.*?找到()
#4,匹配 主演
#.*?star.*?>(.*?)
#第乙個.*?找到star
#第二個.*?找到》
#第三個.*?找到主演
#5,匹配 上映時間
#.*?releasetime.*?>(.*?)
#不再贅述
#6,匹配 評分
#.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?
re.s | re.verbose)
#如果不使用re.s引數,則只在每一行內進行匹配,如果一行沒有,就換下一行重新開始,不會跨行。而使用re.s引數以後,正規表示式會將這個字串作為乙個整體,將「\n」當做乙個普通的字元加入到這個字串中,在整體中進行匹配。
2,寫入檔案:
def write_to_json(content):
with open('result.txt', 'a') as f:
print(type(json.dumps(content)))
f.write(json.dumps(content, ensure_ascii=false,).encode('utf-8'))
遇到
typeerror: write() argument must be str, not bytes
問題:檔案開啟的方式有問題。要使用二進位制形式開啟解決方法: Python 3 網路爬蟲
python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...
Python 3標準庫第三章
時間過得很快,又是一周過去了,今天感覺迷迷糊糊的,不在狀態,然後,下面開始我們的講解,還是跟大家分享一下我自己的一些想法,第一 怎麼講了,就是各位如果有懷才不遇的想法,我感覺最好不要有這種想法 第二 需要競爭對手 第三 堅持 第四 蘇格拉底的徒弟,柏拉圖 第五 講課本身,鍛鍊了我的表達能力 第六 毅...
Python3 網路爬蟲 1
準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...