英文提取步驟
①準備句子示例**②例項化countvectorizer
③講分詞結果變成字串當做fit_transform的輸入值
from sklearn.feature_extraction import dictvectorizer
from sklearn.feature_extraction.text import countvectorizer
defcountvec()
:"""
對文字進行特徵值化
:return: none
"""cv = countvectorizer(
)# data = cv.fit_transform(["dd a d a ss ss d d","adfad adsfads"])
data = cv.fit_transform(
["hello! good evening. i am studying python."
,"good man can use python."])
# 單個漢字不統計
print
(cv.get_feature_names())
# 統計所有文章當中所有的詞,重複的只看做一次
print
(data.toarray())
# 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數
# 單個字母不統計:沒有分類依據
return
none
示例結果
漢文提取步驟
①準備句子,利用jieba.cut進行分詞示例**②例項化countvectorizer
③講分詞結果變成字串當做fit_transform的輸入值
def
cutword()
:"""
切分詞:return: none
"""con1 = jieba.cut(
"早上好,我在學python。"
) con2 = jieba.cut(
"您好,我不會用python。"
)# 轉換成列表
content1 =
list
(con1)
content2 =
list
(con2)
# 把列表轉換為字串
c1 =
' '.join(content1)
c2 =
' '.join(content2)
return c1, c2
defchinesevec()
:"""
中文特徵值化
:return: none
"""c1, c2 = cutword(
)# 獲取句子分詞
cv = countvectorizer(
)# data = cv.fit_transform(["dd a d a ss ss d d","adfad adsfads"])
data = cv.fit_transform(
[c1, c2]
)# 單個漢字不統計
print
(cv.get_feature_names())
# 統計所有文章當中所有的詞,重複的只看做一次
print
(data.toarray())
# 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數
# 準備句子,利用jieba.cut進行分詞
# 例項化countvectorizer
# 講分詞結果變成字串當做fit_transform的輸入值
return
none
示例結果
發布:2023年4月21日
NLTK學習筆記 七 文字資訊提取
開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為了獲...
NLTK學習筆記 七 文字資訊提取
目錄 開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,...
NLTK學習筆記 七 文字資訊提取
目錄開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為...