import html
# 轉義html格式
test_str = '"\u003ch1\u003e第一\u003c\u002fh1\u003e\u003cdiv'
result_str = html.unescape(test_str)
print(result_str) # 輸出沒有轉義的html字串
輸出結果為:"\u003ch1\u003e第一\u003c\u002fh1\u003e\u003cdiv
# 解決編碼問題
# 在python中,對於unicode儲存時,可以採用另一種方法:將unicode的記憶體編碼值進行儲存,讀取檔案時在反向轉換回來。這裡就採用了unicode-escape的方式
str = result_str.encode().decode('unicode_escape') # unicode_escape解碼
# 發現中文亂碼了
str.encode('latin-1').decode('utf-8') # 得到正常中文
Linux系統中轉換編碼格式
iconv f 原始編碼 t 需要的編碼 words.txt 另存為的檔名 如果你需要在linux中操作windows下的檔案,那麼你可能會經常遇到檔案編碼轉換的問題。windows中預設的檔案格式是gbk gb2312 而linux一般都是utf 8。下面介紹一下,在linux中如何檢視檔案的編碼...
php 轉換中文亂碼,php中文編碼轉換問題
php中文編碼轉換的方法 1 使用iconv函式,為 string iconv string in string out string str 2 使用 mb convert encoding 函式。php中文編碼轉換的方法 一 iconvstring iconv string in charset...
linux下文字檔案轉換編碼格式的方法
windows下我們一般是用editplus另存為的方法來轉換文字檔案的編碼方式,例如gb2312轉換成utf8,utf8轉換成gbk等等。在linux,有乙個專門的命令用來執行編碼轉換,它就是iconv,iconv有幾個典型的引數 f,即from,表示檔案的原始編碼 t,即to,表示要轉換成什麼編...