standford NLP課程筆記一 正規表示式

2021-07-03 04:50:29 字數 1592 閱讀 4910

課程位址

裡面的字元表示每個都可以,比如

[ww]oodchuck 可以表示woodchuck和woodchuck

​[1234567890]表示任何單個數字

表示範圍的-

[a-z]表示所有大寫字母

[a-z]表示所有小寫字母

[0-9]表示所有單個數字

表示否定的^

[^a-z]不要大寫的字母

[^a-z]不要小寫的字母

[^ae]不要a也不要e​

[^e^]不要e也不要^,這裡第二個^就表示字元^

a^b​  沒講???

表示或者 |

groundhog|woodchuck表示​要麼是groundhog 要麼是

woodchuck

a|b|c與[abc]意思一樣,都表示要麼是a要麼是b要麼是c

[gg]roundhog|[ww]oodchuck表示​

groundhog,

groundhog,

woodchuck,

woodchuck

? 表示前乙個字元可有可沒有

colou?r表示colour和color​

* 表示前乙個字元可以有0個或多個

oo*h表示oh,ooh,oooh,ooooh等​

+表示前乙個字元可以有1個或多個

o+h表示​

oh,ooh,oooh,ooooh等​

.表示任意字元​

​beg.n表示begin,begun,beg3n等

表示打頭^(注意與表示否定的格式區別)

^[a-z]以大寫字母打頭​

^[a-z]以小寫字母打頭​

^[^a-za-z]以非字母打頭

表示 結尾$

\.$ 以句號.結尾,由於.是乙個特殊字元,因此前面加上斜槓表示該字元

.$ 以任意字元結尾​

測試 which of the following common spelling of britney spear's first name are not covered in this regular expression:brit*[ea]?ne?y

britney

brittney

britany

britiney

答案是第四個

選中文字中的定冠詞the和the

[^a-za-z]​

[tt]he[^a-za-z]​

使用正規表示式時會有兩種錯誤

1 匹配到了,但是匹配的是錯的(比如本來只想匹配定冠詞the,the,結果匹配到了 there,then,other)

false positive​s

2 應該匹配到,但沒匹配到​(比如應該匹配到定冠詞the,the,但沒有匹配到the)

​false negtives

第乙個詞true和false表示對還是錯,就是本次操作的結果是對的還是錯的,上面​的兩種錯誤都是false

第二個詞positive和negtive表示是匹配到了還是沒匹配到

nlp裡面也會有類似的錯誤

提高準確率->降低false positives

提高召回率->降低false negative​s

standford NLP課程筆記四 編輯距離

編輯距離用來衡量兩個串的相似度 編輯距離就是用最少的編輯操作將乙個詞變為另乙個詞,操作有三種 插入刪除 替換如何計算最短編輯距離?採用動態規劃 字串x長度為n 字串y長度為m 定義d i,j 表示x 1,i 和y 1,j 的最短編輯距離,則d n,m 表示x和y的最短編輯距離,注意這裡的字串 下標是...

Coursera Scala課程 第二週筆記

higher order functions 這被稱為 高階函式 既可以當引數傳,也可以當返回值。最早的形式 def sum f int int,a int,b int int if a b 0 else f a sum f,a 1,b def sumints a int,b int sum id,...

Boolan C 課程第一周筆記

第一周 20170407 類 帶指標 1 不帶指標 object based 基於物件 單一物件 object oriented 物件導向 多個有關聯的物件 語言學習 語言 標準庫 標頭檔案寫法 防衛式宣告 ifndef complex define complex 前置宣告 類的宣告 類的定義 e...