這裡其實是存在2個問題的:
requests庫的content與text
這個是開課8老師提過的
content返回型別是str
text返回型別是unicode,所以需要指定一下編碼形式,不然容易顯示亂碼
還說了啥忘記了,反正他的結論是建議用content.decode()
關於這個decode,mac系統預設是utf-8,windows預設gbk,所以windows有時需要根據網頁的編碼指定encoding=「utf-8」
將r的內容用with open儲存到txt檔案時的編碼問題
用with open儲存到txt檔案時,光在content裡面decode了還不一定ok,我windows系統遇到了乙個這樣的問題:
unicodeencodeerror: 『gbk』 codec can』t encode character 『\xbb』 in position 30633: illegal multibyte sequence
或者unicodeencodeerror: 『gbk』 codec can』t encode character '\xa0』錯誤
查詢之後的解決辦法:
(1)在with open裡加encoding=『utf-8』,
(2)content不加decode然後儲存的時候直接儲存二進位制位元組wb
乙個例子講明爬蟲請求庫requests
使用requests可以模擬瀏覽器的請求,比起之前用到的urllib,requests模組的api更加便捷 本質就是封裝了urllib3 1.安裝 pip install requests 2.例項 from random import choice import requests user age...
記乙個phishing website的追蹤
今天開啟hotmail,發現連續受到多封從paypal發來的信件發信人為from service intl.paypal.com service intl.paypal.com 說是我已經繳納了100美刀的費用,後面給出了鏈結 信件內容如下 這個位址好像是paypal的位址 點開鏈結卻連到了http...
記乙個ArrayList set 的坑
在專案中遇到需要把arraylist的第乙個位置覆蓋成新的值 而恰巧第乙個位置沒有任何值,然後就拋越位異常了 arraylistobjects new arraylist objects.set 0,1 arraylist set public e set int index,e element a...