前端基礎 匹配中文(utf 8編碼)

2021-10-04 10:36:10 字數 785 閱讀 2763

每個字元(中文、英文本母、數字、各種符號、拉丁文、韓文、日文等)都對應著乙個unicode編碼。

檢視unicode編碼,找到中文的部分,然後獲取中文的unicode編碼的區間,就可以用正則匹配了。

前面我們用[a-z]表示小寫字母,[0-9]表示數字,這就是乙個範圍表示,如果有乙個數x能夠表示第乙個中文,有乙個數y能夠表示最後乙個中文,那麼[x-y]就可以表示所有的中文了。

中文的unicode編碼從4e00開始,到9fa5結束。

[\u4e00-\u9fa5]這個區間就能夠表示中文。

完整的unicode編碼表

var str =

"你好,世界"

;var res = str.

match

(/[\u4e00-\u9fa5]/g);

console.

log(res)

;//["你", "好", "世", "界"]

把「今今今天晚晚晚晚晚晚上吃吃吃吃吃吃雞」字串換成單字的形式,即「今天晚上吃雞」;

核心思想:匹配到重複的字元時,保留乙個。

var str =

"今今今天晚晚晚晚晚晚上吃吃吃吃吃吃雞"

;//今天晚上吃雞

var res = str.

replace

(/([\u4e00-\u9fa5])\1+/g

,'$1');

console.

log(res)

;

mysql 對utf8編碼 中文排序

select from m order by convert name using gbk asc eg select distinct b.id b.ach name,b.ach bussiness,b.ach finish date,b.ach finish unit m.areaid,a.ar...

讓 SciTE 支援中文 utf 8 編碼

讓 scite 支援中文的文章,google一搜一大片,但都是設定成gbk編碼的。對於我這種啥都utf 8的懶人來說,每次開啟檔案都要點 file encodeing utf 8 實在是太不方面了。自己仔細把全域性配置檔案看了一遍,發現原來有 本地化 的引數。現在只要在 sciteuser.prop...

PHP中文GBK編碼轉UTF 8

iconv 和 mb convert encoding的區別 string mb convert encoding string str,string to encoding mixed from encoding 需要先enable mbstring 擴充套件庫,在 php.ini裡將 exten...