最近在學習 py3 的爬蟲時,遇到了乙個編碼的問題,在抓取頁面的 html **進行儲存時:
with open(filename,'w') as f:出現了錯誤,錯誤詳情如下:f.write(html)
unicodeencodeerror: 'gbk' codec can't encode character '\u0001f434' in position ******: illegal multibyte sequence
搜尋的很多資料都提示使用各種 encode() decode() 和 'utf-8' 'gbk' 之類的處理方法:
然後就報出了這個錯誤 = =
就是指定要寫入的檔案的編碼方式,即通過我想要的utf-8開啟並寫入
f = open("out.html","w",encoding='utf-8')
PY3 內建資料結構 5 字串編碼
python2中只有 unicode型別 而python3中有 string bytes兩種型別 1.str是文字序列 bytes是位元組序列 文字 字元 2.位元組是沒有編碼的 文字是有編碼的 單位元組編碼 雙位元組編碼 utf 8 gbk,gb18030等 3.什麼是編碼?編碼可以說是一種 位元...
python小筆記 檔案讀寫
和c是相容的 檔案讀取 過程 1 開啟檔案 2 讀檔案內容 3 關閉檔案 1.開啟檔案 open path,flag path 要開啟檔案的路徑 flag 開啟方式 r 以唯讀的方式開啟檔案,文案件的描述符放在檔案的 開頭 rb 一二進位制格式開啟乙個檔案用於唯讀,檔案的描述符放在檔案的開頭 r 開...
Python檔案讀寫筆記 3
一.檔案 被持久化的字串,被持久化儲存在磁碟上的字串。二.讀操作 將檔案中的字串載入進記憶體。三.寫操作 將字串寫入到磁碟中的操作。四.open函式 用於讀寫檔案。eg print help open 引數 file 檔名 注意路徑 絕對路徑r c test hello.txt 相對路徑 next ...