詳解MySQL字元的編碼轉換問題

今天我們同大家介紹一下"詳解mysql字元的編碼轉換問題"，希望對大家有所幫助，並和大家一起來**、交流。我們大家都知道容易過想搞好乙個站的二次開發，可以用的原資料庫的編碼有兩種，即gbk與lation1。而我用的是 gbk，就涉及到編碼轉換問題。

這裡在lijun027』s blog查到乙個詳細的編碼比較，幾種情況如下：

一、實驗：

1、情況一

資料庫欄位mysql字符集：utf-8

連線字符集：沒有顯式設定，預設為latin1

頁面字符集：gbk

存入過程：

1)頁面用gbk表示的sql向伺服器提交存入請求；

2)預設情況下（不用set names 『??』）伺服器用latin1開啟連線；

3)伺服器誤認為當前的sql語句是用latin1表示的；

4)伺服器將gbk字元當作latin1字元，錯誤的運用「latin1轉utf-8函式」將mysql字元轉換後存入utf-8欄位中；

5)（錯誤的latin1(其實是gbk) => 錯誤的utf-8）

6)如果用phpmyadmin開啟該錶（用utf8連線）將會看到該字段為亂碼；

讀取過程：

1)預設情況下（不用set names 『??』）伺服器用latin1開啟連線；

2)伺服器將utf-8欄位中的值轉換為latin1返回給客戶端；

3)（錯誤的utf-8 => 錯誤的latin1(其實是gbk)）該過程為存入過程5的逆過程。（剛好錯錯得對了）

4)將伺服器誤認為是latin1的gbk編碼按頁面字符集正常顯示；

用示意圖來表示就是：

存入過程：

----------------------

頁面連線儲存

----------------------

gbk => latin1 => utf-8

---------------

------------- |

| +------- 該過程得到的utf-8是一串不知所云的亂碼，但mysql固執的認為這串碼為utf-8

|+------ mysql將gbk誤認為是latin1

讀取過程：

----------------------

頁面連線儲存

----------------------

gbk <= latin1 <= utf-8

---------------

------------- |

| +------- 正是這串亂碼經過逆過程轉換回正確的gbk編碼，只是mysql認為是latin1而已

|+------ mysql將誤認為是latin1的gbk編碼傳回了頁面，剛好得到正確的編碼。

2、情況二

資料庫字段字符集：utf-8

連線mysql字符集：gbk

頁面字符集：gbk

文字描述略。

示意圖：

存入過程：

----------------------

頁面連線儲存

----------------------

gbk => gbk => utf-8

------------

------------- |

| +------- 該過程得到的utf-8是由gbk轉換而來的，是正確的utf-8編碼

|+------ 頁面字符集等於連線字符集，mysql認為頁面傳遞給它的是gbk編碼，它的想法正好符合事實。

讀取過程：

----------------------

頁面連線儲存

----------------------

gbk <= gbk <= utf-8

---------------

------------- |

| +------- 用「utf-8轉gbk函式」將正確的utf-8編碼轉換回gbk

|頁面字符集等於連線mysql字符集，顯示沒有任何問題。

3、情況三

資料庫字段字符集：gbk

連線字符集：沒有顯式設定，預設為latin1

頁面字符集：gbk

存入過程：

----------------------

頁面連線儲存

----------------------

gbk => latin1 => gbk

------------

------------- |

| +------- 字元被「latin1轉gbk函式」轉換的成了亂碼，但mysql認為它是gbk，所以工具無法正常顯示。

|+------ mysql認為頁面傳遞給它的是latin1編碼，它將在後續過程中畫蛇添足地將正確的gbk轉換為亂碼。

讀取過程：

----------------------

頁面連線儲存

----------------------

gbk <= latin1 <= gbk

---------------

------------- |

| +------- 「gbk轉latin1函式」將亂碼轉換為gbk，但mysql卻認為它們是latin1

|+------ 錯誤的latin1編碼其實是正確的gbk編碼，頁面顯示正常，但工具顯示不正常。

二、mysql字符集之間的轉換

筆者試著將gbk字元誤當作latin1轉換為錯誤的utf-8能成功，逆過程中將亂碼轉換回latin1得到的剛好是正確的gbk。

$str = "中文測試";

$str_tran = iconv('latin1', 'utf-8', $str);   
echo $str_tran;

顯示亂碼，既不是gbk也不是utf-8和latin1

echo "
-----------
";  
$str_re_tran = iconv('utf-8', 'latin1', $str_tran);   
echo $str_re_tran;

顯示「中文測試」

而將gbk字元誤當作utf-8轉換為錯誤的gbk編碼則出現錯誤

$str = "中文測試";

#$str_tran = iconv('utf-8', 'gbk', $str);

錯誤！！！

可見一種編碼是否能被當作另一種編碼被轉換為第三種編碼，取決於編碼的固有屬性，上面我們舉的第乙個例子只是碰巧gbk編碼能被誤當作latin1被轉換為utf-8。如果是如下情況，則資料庫肯定不能正常訪問資料。

先說一下教訓，建立資料庫的時候，同乙個應用，所有的編碼一定要一致，不然就是自尋煩惱。

搞了半天用iconv轉換後還是不行。（在windows下開啟iconv只需要把php.ini裡面的;extension=php_mbstring.dll前面的「;」去掉即可。網上查了下。很多都說要開啟;extension=php_iconv.dll這個東東，但下了幾個版本的php都沒有看到有這一行，估計是老版本才需要這麼幹吧？）

最後找到乙個工具，可以實現latin1<->gbk,gbk<->utf8,gbk<->big5,的編碼的相互轉換，程式可以進行多次轉換即可以實現latin1->gbk->utf8等的轉換，但是不能跳躍轉換（例：latin1不能直接轉換成utf8）。

還不錯，轉過來沒有亂碼，終於解決問題。

另外提一下備份資料庫工具：帝國資料備份王(empirebak)。一款開源免費、專門為mysql大資料的備份與匯入而設計的穩定高效軟體,系統採用分卷備份與匯入,理論上可備份任何大小的資料庫。

詳解MySQL字元的編碼轉換問題

python 字元編碼轉換詳解

LOAD DATA INFILE字元編碼的問題

字元編碼的轉換

詳解MySQL字元的編碼轉換問題

python 字元編碼轉換詳解

LOAD DATA INFILE字元編碼的問題

字元編碼的轉換

相關推薦