1. 文字中url位址抽取
regex = "(http[s]?://(?:[a-za-z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fa-f][0-9a-fa-f]))+)|([a-za-z]+.\w+\.+[a-za-z0-9\/_]+)"
url = re.findall(regex, text)
print(url)
"""[('', '')]
"""
2. email 位址抽取regex = "([a-za-z0-9_.+-]+@[a-za-z0-9-]+\.[a-za-z0-9-.]+)"
text = "我的郵箱是[email protected]"
email = re.findall(regex, text)
print(email)
「」「['[email protected]']
」「」
3. 身份證號碼抽取regex = "\d[\d|x|x]"
text = "我的身份證號碼是352221199604050372"
idnumber = re.findall(regex, text)
print(idnumber)
「」「['352221199604050372']
」「」
4. ip位址抽取regex = "(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.)(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])"
text = '我的ip是127.0.0.1'
ip = re.findall(regex, text)
print(ip)
"""['127.0.0.1']
"""
5. **號碼抽取regex = "1[34578]\d"
text = "我的手機號是18896827613"
phonenumber = re.findall(regex, text)
print(phonenumber)
"""['18896827613']
"""
6. 中文資訊抽取import re
regex = '[\u4e00-\u9fa5]'
text = '我是wo shi 中國人 zhong guo ren'
ch_character = re.findall(regex, text)
print(ch_character)
"""['我', '是', '中', '國', '人']
7. 英文資訊抽取text = '我是wo shi 中國人 zhong guo ren'
regex = '[a-za-z]'
en_character = re.findall(regex, text)
print(en_character)
['w', 'o', 's', 'h', 'i', 'z', 'h', 'o', 'n', 'g', 'g', 'u', 'o', 'r', 'e', 'n']
8. 數字抽取text = '北京2019口號富強'
regex = '[0-9]'
number = re.findall(regex, text)
print(number)
['2', '0', '1', '9']
基於模式發現的資訊抽取 1
iepad 基於模式發現的資訊抽取 iepad information extraction based on pattern discovery chia hui chang shao chen lui 摘要 關鍵字 資訊抽取,抽取規則,pat樹,多字串對齊 引言 本文將要介紹iepad,乙個應用...
命名實體識別(一) 基於規則的命名實體識別
一 命名實體識別 首先,我們來認識一下命名實體識別的概念。命名實體識別 named entities recognition,ner 研究的命名實體一般分為3大類 實體類 時間類和數字類 和7小類 人名 地名 組織機構名 時間 日期 貨幣和百分比 研究的目的是將語料中的這些命名實體識別出來。主要有三...
實體關係抽取的現狀與未來
來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援,中國的桌球誰都打不過 與 中國的足球誰都打不過 在計算機看來語義上並沒有巨大差異,而實際上兩句中的 打不過 意思正好相...