二 文字提取 機器學習

2021-10-05 07:43:44 字數 2085 閱讀 6521

英文提取步驟

①準備句子

②例項化countvectorizer

③講分詞結果變成字串當做fit_transform的輸入值

示例**
from  sklearn.feature_extraction import dictvectorizer

from sklearn.feature_extraction.text import countvectorizer

defcountvec()

:"""

對文字進行特徵值化

:return: none

"""cv = countvectorizer(

)# data = cv.fit_transform(["dd a d a ss ss d d","adfad adsfads"])

data = cv.fit_transform(

["hello! good evening. i am studying python."

,"good man can use python."])

# 單個漢字不統計

print

(cv.get_feature_names())

# 統計所有文章當中所有的詞,重複的只看做一次

print

(data.toarray())

# 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數

# 單個字母不統計:沒有分類依據

return

none

示例結果

漢文提取步驟

①準備句子,利用jieba.cut進行分詞

②例項化countvectorizer

③講分詞結果變成字串當做fit_transform的輸入值

示例**
def

cutword()

:"""

切分詞:return: none

"""con1 = jieba.cut(

"早上好,我在學python。"

) con2 = jieba.cut(

"您好,我不會用python。"

)# 轉換成列表

content1 =

list

(con1)

content2 =

list

(con2)

# 把列表轉換為字串

c1 =

' '.join(content1)

c2 =

' '.join(content2)

return c1, c2

defchinesevec()

:"""

中文特徵值化

:return: none

"""c1, c2 = cutword(

)# 獲取句子分詞

cv = countvectorizer(

)# data = cv.fit_transform(["dd a d a ss ss d d","adfad adsfads"])

data = cv.fit_transform(

[c1, c2]

)# 單個漢字不統計

print

(cv.get_feature_names())

# 統計所有文章當中所有的詞,重複的只看做一次

print

(data.toarray())

# 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數

# 準備句子,利用jieba.cut進行分詞

# 例項化countvectorizer

# 講分詞結果變成字串當做fit_transform的輸入值

return

none

示例結果

發布:2023年4月21日

NLTK學習筆記 七 文字資訊提取

開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為了獲...

NLTK學習筆記 七 文字資訊提取

目錄 開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,...

NLTK學習筆記 七 文字資訊提取

目錄開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為...