記 html格式轉換 編碼中文亂碼現象

2022-08-22 21:51:11 字數 510 閱讀 7246

import html

# 轉義html格式

test_str = '"\u003ch1\u003e第一\u003c\u002fh1\u003e\u003cdiv'

result_str = html.unescape(test_str)

print(result_str) # 輸出沒有轉義的html字串

輸出結果為:"\u003ch1\u003e第一\u003c\u002fh1\u003e\u003cdiv

# 解決編碼問題

# 在python中,對於unicode儲存時,可以採用另一種方法:將unicode的記憶體編碼值進行儲存,讀取檔案時在反向轉換回來。這裡就採用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解碼

# 發現中文亂碼了

str.encode('latin-1').decode('utf-8') # 得到正常中文

Linux系統中轉換編碼格式

iconv f 原始編碼 t 需要的編碼 words.txt 另存為的檔名 如果你需要在linux中操作windows下的檔案,那麼你可能會經常遇到檔案編碼轉換的問題。windows中預設的檔案格式是gbk gb2312 而linux一般都是utf 8。下面介紹一下,在linux中如何檢視檔案的編碼...

php 轉換中文亂碼,php中文編碼轉換問題

php中文編碼轉換的方法 1 使用iconv函式,為 string iconv string in string out string str 2 使用 mb convert encoding 函式。php中文編碼轉換的方法 一 iconvstring iconv string in charset...

linux下文字檔案轉換編碼格式的方法

windows下我們一般是用editplus另存為的方法來轉換文字檔案的編碼方式,例如gb2312轉換成utf8,utf8轉換成gbk等等。在linux,有乙個專門的命令用來執行編碼轉換,它就是iconv,iconv有幾個典型的引數 f,即from,表示檔案的原始編碼 t,即to,表示要轉換成什麼編...