關於MySQL字符集架構的思考

2021-05-22 02:26:59 字數 2208 閱讀 6077

隨著各種多位元組字符集的廣泛應用,而在軟體開發裡人數比例非常高的操英文的程式設計師對多位元組字元並不是很了解,這是最近幾年很多漏洞都是多位元組引起的乙個原 因。本文作者就mysql 的字符集架構作用談了自己的看法。 最近幾個月,我每次用mysql,幾乎都會想:mysql現在如此層次分明的字符集架構作用真的很大嗎?

mysql的字符集處理

傳送請求

客戶端(character_set_client)=》資料庫 連線 (character_set_connection)=》儲存 (table,column)

返回請求

儲存(table,column)=》資料庫連線(character_set_connection )=》客戶端(character_set_results)

在每乙個非初始節點,都會做一次從上乙個結點到當前節點的字符集轉換操作。舉個例子,有如下環境:

◆ character_set_connection utf-8

◆ character_set_results gbk

◆ character_set_client gb2312

◆ 有表a,字段字符集全部為big5

傳送請求的時候,首先資料從gbk轉換為utf-8,再轉換為big5,然後再儲存。

返回請求的時候,首先資料從big5轉換為utf-8,再轉換為gb2312,然後再傳送給客戶端。

架構的作用

1. 允許不同的客戶端具有不同的字符集。典型的例子就是,我有乙個utf-8的站點,這個站點就是乙個charset client為utf-8的客戶端。與此同時,我有可能需要在乙個gbk的終端上讀寫資料庫,這又是乙個客戶端,不過它的字符集是gbk。

2. 通過資料庫操作檔案系統 的時候,需要把檔案路徑轉為檔案系統的字符集。例如 我的客戶端是gbk,而伺服器檔案系統是utf-8。操作」/** /rina.rmvb」,傳送過去的資料裡,「片」的資料和伺服器是不一樣的。這時候就需要有個辦法可以把轉換gbk的「片」到utf-8。在這裡 mysql引入了乙個叫character_filesystem的東西來完成這個事情。

除此之外,我暫時想不到其他的作用了。但是仔細想想,我們真的需要這樣的處理嗎?很多**,無非就是希望自己的資料能怎麼進去就怎麼出來。這裡又有兩種情 況了。

1. 希望可以根據資料進行排序或者做like操作。首先說排序,對於包含中文 的字段來說,根據字符集排序的概念如同雞肋。簡體中 文排序,一般都是希望按拼音來排序。我沒有去真正了解過mysql裡的校驗,但是從我接觸過的程式來看,需要做此類排序,都是專門建乙個存放拼音的字段來 排序。而拼音又存在多音字的情況。如果是utf-8,還存在某個區間的中文同時被中日韓三國共用的情況。實現起來不是這麼容易,所以mysql無論的 gbk還是utf-8的校驗集 應該都沒有實現拼音。我敢說,現在國內使用mysql的大多數**,所用到的校驗集,只是乙個byte排序而已。而byte排序,根本不需要使用什麼字元 集。所以說對於中文站點,mysql字元校驗在排序上沒任何意義。

但是在like操作上,倒是有了一點點意義。例如我like 『%a%』,就有可能匹配到某個中文某個部分含有a。當然這種情況在utf-8下不會遇到,因為utf-8的儲存格式導致a只可能是a,不可能是乙個多字 節字元的一部分。但是在其他字符集可能就會有這個問題了。說到最後,like又變得和order一樣使得校驗沒意義了。暈倒。

2. 如果完全不需要對資料進行排序,like或者全文檢索,那麼請停止使用char,varchar,text之類的吧。 binary,varbinary,blob才是正確的選擇。binary之類的在儲存,取出的時候都不會進行字符集轉換,而在排序時候,只根據二進位制內 容排序,所以在效率上高出char,varchar,text很多。

這種情況更不需要字符集了。但是按照目前mysql的架構,在client和connection之間的字符集操作,是忽略字段型別的,在這兩個節點之 間,依然會進行字符集轉換。

另外提一下php裡的設定字符集。大家請不要再使用mysql_query(」set names utf8″)這樣的語句了。mysql_set_charset()才是最完整的字符集設定方式。後者比前者多乙個設定,就是把struct mysql的charset成員也設定了。這個成員變數在escape的時候起著很重要的作用,特別是對於gbk這種執行把「」作為字元一部分的編碼格 式。如果你只使用mysql_query(」set names ***」),那麼在某些字符集,會有重大的安全漏洞,導致mysql_real_escape_string變得和addslashes一樣不安全

mysql 集群字符集 Mysql 字符集

字符集與字元比較 字符集字符集是某種字元的集合,比如最常見的ascii碼,由127個字元組成,只需要乙個位元組就能表示 我們常說的字符集還是gbk iso utf8 mysql 我們使用得最多的字符集就是gbk 和 utf8了 他們都是變長字符集,如果字元在ascii範圍內就使用乙個位元組表示,其他...

mysql字符集 MySQL字符集選擇

一 怎樣選擇合適的字符集 對mysql資料庫來說,字符集很重要,因為資料庫儲存的資料大部分都是各種文字,字符集對資料庫的儲存,處理效能都會有所影響。主要考慮一下幾方面的因素 1.滿足應用支援語言的需求,應用處理各種各樣的文字,發布到使用不同語言的國家或地區,可以選擇unicode字符集,mysql的...

mysql api 字符集 MySQL字符集

mysql字符集包括字符集 character 和 collation 兩個概念。字符集是用來定義mysql儲存字串的規則,校對規則則是定義了比較字串的方式。字串和校對規則是一對多的 關係。使用命令 show collation like gbk 可檢視相關的校對規則 使用 show charact...