正規表示式在NLP中的基本應用

2021-09-28 14:27:22 字數 1053 閱讀 8611

正規表示式在nlp中的作用

1.將非結構化文件轉化為結構化文字

2.去噪

#在python中使用re模組來實現正規表示式

import re

"""text_string='組合範疇語法(combinatory categorial grammar,),是在ab演算基礎上進行擴充套件而產生的範疇語法。' \

'從語法理論視角看,ccg是一種詞彙形式化的方法。從計算語言學視角看,ccg屬於一類適度上下文相關文法。' \

'從邏輯語義學視角看,ccg在句法與語義的介面方面非常融洽。無論是ccg語言的、計算的,還是邏輯的特徵,' \

'都使得 ccg非常適用於自然語言資訊處理,對於計算語言學具有很好的理論和實際價值。'

#regex='ccg' 匹配含有ccg的句子

#regex='c..' 匹配含有c..的句子,'.'可表示任意字元

#regex='..g' 同上

#regex='^從' 匹配以從開始的句子

#regex='從$' 匹配以從結尾的句子

regex='^從[語邏]' #匹配以 '從語'和'從邏'開始的句子 表示後邊可以匹配多個字元

p_string=text_string.split('。')

for line in p_string:

if re.search(regex,line)is not none:

print(line)"""

#關於轉義字元'/'的匹配

"""if re.search(r"\\","i love n\lp"):

print("yes")

else :

print("no")"""

#關於抽取特殊數字或者字元

years_string='2016 was good,but 2017 will be better!'

year=re.findall('[2][0-9][0-9][0-9]',years_string) #字元[a-z]同理

print(year)

正規表示式的表示及基本應用

1.abc a b c中任意的乙個字元 2.abc 除了a b c的任意字元 3.a z a b c z中的任意乙個字元 4.a za z0 9 a z a z 0 9中任意乙個字元 5.a z bc a z中除了b和c以外的任意乙個字元,其中 表示 與 的關係 6.任意乙個字元 7.d 任意乙個數...

NLP的基本手段 正規表示式

正規表示式是一種定義了搜尋模式的特徵序列,主要用於字串的模式匹配,或是字元的匹配。正規表示式是處理nlp的最基本手段之一,其可以幫助我們在格式複雜的的文字中抽取所需要的資訊。nlp通常所需要處理的預料一部分來自web網頁的資訊抽取,一部分來自文字格式的文件,但是它們的格式不統一,大部分為半結構化文字...

正規表示式在VB中的應用

引用了microsoft vbscript regular expressions 5.5 後就可以宣告正則相關物件了。主要有三個物件 regexp matchcollection match。1.regexp 這是vb使用正規表示式匹配模式的主要物件了。其提供的屬性用於設定那些用來比較的傳遞給 r...