import jieba
import re
eve_list =
["測試**現power_type_check"
,"依據bom和裝配圖,bom中沒有不用處理"
,"記憶體問題反饋攻關組跟蹤"
]print
(list
(map
(lambda x: re.sub(
"[\s\d%_/a-za-z]+",""
, x)
, eve_list)
))
import jieba
import re
eve_list =
["測試**現power_type_check"
,"依據bom和裝配圖,bom中沒有不用處理,謝謝"
,"記憶體問題反饋攻關組跟蹤"
]stopwords =
['謝謝'
,'請'
]cut_word =
[jieba.lcut(every_str)
for every_str in eve_list]
res =[[
]for i in
range
(len
(eve_list))]
for i in
range
(len
(cut_word)):
res[i]
=[every_word for every_word in cut_word[i]
if every_word not
in stopwords]
# 過濾停用詞,所有字段
result =
for i in
range
(len
(res)):
temp_string =
"".join(res[i]
) temp_clean_string = re.sub(
"[\s\d%_/a-za-z]+",""
, temp_string)
print
(result)
import jieba
import re
eve_list =
"依據bom和裝配圖,bom中沒有不用處理,謝謝"
stopwords =
['謝謝'
,'請'
]cut_word_list = jieba.lcut(eve_list)
res =
for every_word in cut_word_list:
if every_word in stopwords:
continue
temp =
" ".join(res)
res_string = re.sub(
"[\s\d%_/a-za-z#::.~\-]+",""
, temp)
print
(res_string)
import jieba
import re
# 輸入:temp_list--["", "", "", "", ""] 處理物件
# index_list--[1,2,3,4,5] 處理的列表列號
# 返回值:temp_list--["", "", "", "", ""] 處理結果
temp_list =
["測試**現power_type_check123"
,"依據bom和裝配圖,bom中沒有不用處理,謝謝,"
,"!記憶體問題反饋攻關組跟蹤"
]index_list =[0
,1,2
]for i in index_list:
temp_list[i]
= temp_list[i]
+"。"
# 每句後加句號
temp_list[i]
= re.sub(
"[^0-9a-za-z\u4e00-\u9fa5]"
,","
, temp_list[i]
)# 保留
if temp_list[i][-
1]==","
: temp_list[i]
= temp_list[i]
.strip(
",")
+"。"
# 每句末如果是逗號,改為句號
if re.sub(
"[^0-9a-za-z\u4e00-\u9fa5]",""
, temp_list[i][0
])==""
:# 證明開頭是標點
temp_list[i]
= temp_list[i][1
:]print
(temp_list)
import jieba
import re
import jieba.posseg as pseg
temp_list =
"張杰在測試中發現故障"
pair_word_list = pseg.lcut(temp_list)
for eve_word, cixing in pair_word_list:
if cixing ==
"nr"
:print
(eve_word)
文字預處理
常見預處理步驟,預處理通常包括四個步驟 讀入文字 分詞建立字典,將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列,方便輸入模型 現有的工具可以很好地進行分詞,我們在這裡簡單介紹其中的兩個 spacy和nltk。text mr.chen doesn t agree with ...
文字預處理
本文章內容主要學習文字預處理的基本步驟及實現。1 讀入文字 2 分詞 3 建立詞典,將每乙個詞對映到乙個唯一的索引 4 將文字從詞的序列轉換為索引的序列,方便輸入模型 此處用一部英文 即h.g.well的time machine,作為示例,展示文字預處理的具體過程。def read time mac...
文字挖掘預處理的流程總結
本文 作為備份 總所周知,資料探勘模型中非常重要的部分是訓練模型,訓練集與測試集便是整個資料探勘過程中花費時間最多的過程。資料集通過有如下的一些途徑獲得 經典資料集 python nltk 便提供了非常多經典的資料集。很多資料集都是手工標註而成,所以使用的時候不得不感嘆工程的浩大。例如nlp中使用的...