概念
1.1 regular expression(正規表示式)主要用於搜尋、過濾字串,包括普通字元(如a-z)與特殊字元(元字元)。
1.2 元字元
^:匹配字串的頭部
$:匹配字串的尾部
():標記子表示式的開始與結束
*:匹配前面的子表示式0次或多次
?:匹配前面的子表示式0次或1次,或指明乙個非貪婪限定符
+:匹配前面的子表示式1尺或多次
.:匹配除\n外的任何單字元
1.3 運算子優先順序
|\
| 轉義符 |
|(), (?: ), (?=),
|圓括號和方括號|
|*, +, ?, , ,
| 限定符|
|^, $, \任何元字元、任何字元
| 定位點和序列(即:位置和順序)|
||
|替換,「或"操作
字元具有高於替換運算子的優先順序,使得"m|food"匹配"m"或"food」。若要匹配"mood"或"food",請使用括號建立子表示式,從而產生"(m|f)ood"。|
1.4 字元簇
[a-z] //匹配所有的小寫字母
[a-z] //匹配所有的大寫字母
[a-za-z] //匹配所有的字母
[0-9] //匹配所有的數字
[0-9.-] //匹配所有的數字,句號和減號
[ \f\r\t\n] //匹配所有的白字元
用法2.1 ^
^表示字串的開頭,但它還有另外乙個含義。當在一組方括號裡使用^是,它表示"非"或"排除"的意思,常常用來剔除某個字元。還用前面的例子,我們要求第乙個字元不能是數字:
^[^0-9][0-9]$
2.2 匹配多個字元
^a$ aaaa
^a$ aa,aaa或aaaa
^a$ 包含多於兩個a的字串
2.3 ()與
(0-9) 匹配 '0-9′ 本身, [0-9] 匹配數字
2.4 小試牛刀
匹配以dx為開頭的二級網域名稱:
www.dxa000s4441a.com
^www.dx(.*).com$
參考3.1 正規表示式
正則學習1
正規表示式修飾符 g,i,m g global 全域性匹配 i ignorecase 忽略大小寫匹配 m multiline 多行匹配 正則元字元 1.量詞元字元 讓前面的元字元出現一到多次 出現0到1次 出現n次 出現n到多次 出現n m次 2.特殊意義元字元 轉義字元 把乙個普通字元轉化為特殊意...
《學習正規表示式》(1)
1.稱為元字元,不參與匹配。2.a a 字元組或者字符集。例如 0 9 或者 01239 前者匹配0 9所有數字字元,後者匹配特定的五個數字字元。3.d 匹配所有阿拉伯數字,成為字元組簡寫式 4.d 匹配非數字字元 5.使用.匹配任意字元,但通常不包括換行符.使用方法 帶匹配連線符 舉例 表示匹配 ...
學習筆記 稀疏性正則化 l1正則化
還記得我們之前用經度和緯度來進行分箱嗎?僅僅是2個特徵進行分箱組合就讓我們的輸入特徵數量暴增。假設我們現在有k個特徵需要來分箱,每個分為長度為k的獨熱編碼。那麼我們輸入特徵就為 k k個,這種指數增長會占用我們大量ram。這是我們需要辦法來拯救我們的ram。那麼乙個好的方法就是讓我們的部分權重為0,...