在進行文字訓練和處理之前難免要進行下預處理,過濾掉沒有用的符號等,簡單用python 的正規表示式過濾一下。
#!/usr/bin/python
# encoding: utf-8
import re
# make english text clean
def clean_en_text(text):
# keep english, digital and space
comp = re.compile('[^a-z^a-z^0-9^ ]')
return comp.sub('', text)
# make chinese text clean
def clean_zh_text(text):
# keep english, digital and chinese
comp = re.compile('[^a-z^a-z^0-9^\u4e00-\u9fa5]')
return comp.sub('', text)
if __name__ == '__main__':
text_en = '$how old are you? could you give me your pen?'
text_zh = '$你好!我是個程式猿,標註碼農¥'
print(clean_en_text(text_en))
print(clean_zh_text(text_zh))
測試
(base) ➜ src python test.pyhow old are you could you give me your pen
你好我是個程式猿標註碼農
正規表示式文字過濾
1.grep 預設是按照以行為基本單位進行匹配和顯示的。2.grep預設匹配只要包含模式字元即可 grep w 是按單詞匹配,和普通的匹配不一致 單詞的分隔符,數字加字母加下劃線都算做單詞的一部分 匹配顯示結果的行號 grep 並且關係和 或者關係 1.並且 grep root etc passwd...
python使用正規表示式文字替換
python使用正規表示式文字替換 2d客戶端程式設計從某種意義上來講就是素材組織,所以,素材組織經常需要批量處理,python一定是最佳選擇,不管是win linux mac都有乙個簡單的執行環境 舉兩個應用場景 直接看 吧 encoding utf 8 import re 將正規表示式編譯成pa...
python正規表示式元字元 正規表示式
字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...