每個字元(中文、英文本母、數字、各種符號、拉丁文、韓文、日文等)都對應著乙個unicode編碼。
檢視unicode編碼,找到中文的部分,然後獲取中文的unicode編碼的區間,就可以用正則匹配了。
前面我們用[a-z]表示小寫字母,[0-9]表示數字,這就是乙個範圍表示,如果有乙個數x能夠表示第乙個中文,有乙個數y能夠表示最後乙個中文,那麼[x-y]就可以表示所有的中文了。
中文的unicode編碼從4e00開始,到9fa5結束。
[\u4e00-\u9fa5]這個區間就能夠表示中文。
完整的unicode編碼表:
var str =
"你好,世界"
;var res = str.
match
(/[\u4e00-\u9fa5]/g);
console.
log(res)
;//["你", "好", "世", "界"]
把「今今今天晚晚晚晚晚晚上吃吃吃吃吃吃雞」字串換成單字的形式,即「今天晚上吃雞」;
核心思想:匹配到重複的字元時,保留乙個。
var str =
"今今今天晚晚晚晚晚晚上吃吃吃吃吃吃雞"
;//今天晚上吃雞
var res = str.
replace
(/([\u4e00-\u9fa5])\1+/g
,'$1');
console.
log(res)
;
mysql 對utf8編碼 中文排序
select from m order by convert name using gbk asc eg select distinct b.id b.ach name,b.ach bussiness,b.ach finish date,b.ach finish unit m.areaid,a.ar...
讓 SciTE 支援中文 utf 8 編碼
讓 scite 支援中文的文章,google一搜一大片,但都是設定成gbk編碼的。對於我這種啥都utf 8的懶人來說,每次開啟檔案都要點 file encodeing utf 8 實在是太不方面了。自己仔細把全域性配置檔案看了一遍,發現原來有 本地化 的引數。現在只要在 sciteuser.prop...
PHP中文GBK編碼轉UTF 8
iconv 和 mb convert encoding的區別 string mb convert encoding string str,string to encoding mixed from encoding 需要先enable mbstring 擴充套件庫,在 php.ini裡將 exten...