例項**:
#執行結果:文字特徵抽取
from sklearn.feature_extraction import
dictvectorizer
from sklearn.feature_extraction.text import
countvectorizer
import
jieba
defcountvec():
'''對文字進行特徵值化
:return:none
'''cv =countvectorizer()
#data = cv.fit_transform(["life is short,i like python ", "life is too long ,i dislike python"])
data = cv.fit_transform(["
人生 苦短,我 喜歡 python
", "
人生 漫長,不用 python"])
print(cv.get_feature_names()) #
獲取特徵值名稱
#print(data)
print(data.toarray()) #
sparse矩陣轉換為陣列形式
return
none
defcutword():
con1 = jieba.cut("
在百事進入中國市場之後,將外包裝進行了修改,變為了代表性的藍色,直接和紅色外包裝的可口可樂進行競爭與")
con2 = jieba.cut("
百事則成立於2023年,由百事可樂的發明人成立,百事可樂的發明人同樣是一位藥劑師,據說最開始是因為他在配製一種助消化的藥劑時無意中發現某種口味深受顧客喜愛,他根據這種口味製作了碳酸飲料,也就成為了後來的百事可樂。")
con3 = jieba.cut("
可口可樂公司成立2023年,由阿薩坎德勒創立,他從發明可口可樂之人約翰彭伯頓手中買下了全部的銷售生產權,並開始大範圍的在市場進行推廣,他創立了可口可樂公司,也被稱之為「可口可樂之父」,隨後經過了幾代人的發展,可口可樂公司也一躍成為了世界著名的飲料生產商。")
#轉換成列表
content1 =list(con1)
content2 =list(con2)
content3 =list(con3)
#把列表轉換成字串
c1 = '
'.join(content1)
c2 = '
'.join(content2)
c3 = '
'.join(content3)
return
c1, c2, c3
defhanzivec():
'''中文特徵值化
:return:none
'''c1, c2, c3 =cutword()
(c1, c2, c3)
cv =countvectorizer()
data =cv.fit_transform([c1, c2, c3])
print(cv.get_feature_names()) #
獲取特徵值名稱
#print(data)
print(data.toarray()) #
sparse矩陣轉換為陣列形式
return
none
if__name__ == "
__main__":
#countvec()
hanzivec()
文字特徵抽取與處理
一 nlp的文字表示 既是語言模型 language model 是我們分析的入口。1 統計語言模型的目的 建立乙個能夠描述一句話 乙個詞的概率估計方法 2 語義模型的基礎模型 p w1w2w3.wi 累乘 p w1 p w2 w1 p w2 w2w1 3 語義模型的概率估計 一句話乙個片語在一起的...
特徵提取 中文文字特徵抽取
jieba庫 ex 1 import jieba def cut word text text join list jieba.cut text return text def cut chinese demo2 data 每乙個公民的合法權利都值得守護 每乙個維權訴求都值得珍視。當且僅當舉報渠道暢...
字典特徵提取和文字特徵抽取
什麼叫字典特徵提取?字典內容轉化成計算機可以處理的數值 比如現在有個字典 data 分別是老三,老四,老五的個人基本資訊 我們想提取出來這幾個人的特徵值,也就是給我用乙個向量,表示某個獨一無二的人的特徵 我們先給出 coding utf 8 特徵提取 首先匯入轉換器類 from sklearn.fe...