課程位址
裡面的字元表示每個都可以,比如
[ww]oodchuck 可以表示woodchuck和woodchuck
[1234567890]表示任何單個數字
表示範圍的-
[a-z]表示所有大寫字母
[a-z]表示所有小寫字母
[0-9]表示所有單個數字
表示否定的^
[^a-z]不要大寫的字母
[^a-z]不要小寫的字母
[^ae]不要a也不要e
[^e^]不要e也不要^,這裡第二個^就表示字元^
a^b 沒講???
表示或者 |
groundhog|woodchuck表示要麼是groundhog 要麼是
woodchuck
a|b|c與[abc]意思一樣,都表示要麼是a要麼是b要麼是c
[gg]roundhog|[ww]oodchuck表示
groundhog,
groundhog,
woodchuck,
woodchuck
? 表示前乙個字元可有可沒有
colou?r表示colour和color
* 表示前乙個字元可以有0個或多個
oo*h表示oh,ooh,oooh,ooooh等
+表示前乙個字元可以有1個或多個
o+h表示
oh,ooh,oooh,ooooh等
.表示任意字元
beg.n表示begin,begun,beg3n等
表示打頭^(注意與表示否定的格式區別)
^[a-z]以大寫字母打頭
^[a-z]以小寫字母打頭
^[^a-za-z]以非字母打頭
表示 結尾$
\.$ 以句號.結尾,由於.是乙個特殊字元,因此前面加上斜槓表示該字元
.$ 以任意字元結尾
測試 which of the following common spelling of britney spear's first name are not covered in this regular expression:brit*[ea]?ne?y
britney
brittney
britany
britiney
答案是第四個
選中文字中的定冠詞the和the
[^a-za-z]
[tt]he[^a-za-z]
使用正規表示式時會有兩種錯誤
1 匹配到了,但是匹配的是錯的(比如本來只想匹配定冠詞the,the,結果匹配到了 there,then,other)
false positives
2 應該匹配到,但沒匹配到(比如應該匹配到定冠詞the,the,但沒有匹配到the)
false negtives
第乙個詞true和false表示對還是錯,就是本次操作的結果是對的還是錯的,上面的兩種錯誤都是false
第二個詞positive和negtive表示是匹配到了還是沒匹配到
nlp裡面也會有類似的錯誤
提高準確率->降低false positives
提高召回率->降低false negatives
standford NLP課程筆記四 編輯距離
編輯距離用來衡量兩個串的相似度 編輯距離就是用最少的編輯操作將乙個詞變為另乙個詞,操作有三種 插入刪除 替換如何計算最短編輯距離?採用動態規劃 字串x長度為n 字串y長度為m 定義d i,j 表示x 1,i 和y 1,j 的最短編輯距離,則d n,m 表示x和y的最短編輯距離,注意這裡的字串 下標是...
Coursera Scala課程 第二週筆記
higher order functions 這被稱為 高階函式 既可以當引數傳,也可以當返回值。最早的形式 def sum f int int,a int,b int int if a b 0 else f a sum f,a 1,b def sumints a int,b int sum id,...
Boolan C 課程第一周筆記
第一周 20170407 類 帶指標 1 不帶指標 object based 基於物件 單一物件 object oriented 物件導向 多個有關聯的物件 語言學習 語言 標準庫 標頭檔案寫法 防衛式宣告 ifndef complex define complex 前置宣告 類的宣告 類的定義 e...