Python正規表示式做文字預處理,去掉特殊符號

2021-09-01 00:13:31 字數 884 閱讀 6208

在進行文字訓練和處理之前難免要進行下預處理,過濾掉沒有用的符號等,簡單用python 的正規表示式過濾一下。

#!/usr/bin/python

# encoding: utf-8

import re

# make english text clean

def clean_en_text(text):

# keep english, digital and space

comp = re.compile('[^a-z^a-z^0-9^ ]')

return comp.sub('', text)

# make chinese text clean

def clean_zh_text(text):

# keep english, digital and chinese

comp = re.compile('[^a-z^a-z^0-9^\u4e00-\u9fa5]')

return comp.sub('', text)

if __name__ == '__main__':

text_en = '$how old are you? could you give me your pen?'

text_zh = '$你好!我是個程式猿,標註碼農¥'

print(clean_en_text(text_en))

print(clean_zh_text(text_zh))

測試

(base) ➜  src python test.py

how old are you could you give me your pen

你好我是個程式猿標註碼農

正規表示式文字過濾

1.grep 預設是按照以行為基本單位進行匹配和顯示的。2.grep預設匹配只要包含模式字元即可 grep w 是按單詞匹配,和普通的匹配不一致 單詞的分隔符,數字加字母加下劃線都算做單詞的一部分 匹配顯示結果的行號 grep 並且關係和 或者關係 1.並且 grep root etc passwd...

python使用正規表示式文字替換

python使用正規表示式文字替換 2d客戶端程式設計從某種意義上來講就是素材組織,所以,素材組織經常需要批量處理,python一定是最佳選擇,不管是win linux mac都有乙個簡單的執行環境 舉兩個應用場景 直接看 吧 encoding utf 8 import re 將正規表示式編譯成pa...

python正規表示式元字元 正規表示式

字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...