sklearn.feature_extraction.text.countverctorizer
from sklearn.feature_extraction import dictvectorizer
from sklearn.feature_extraction.text import countvectorizer
defdictvet()
:# mydict=dictvectorizer(sparse=false)
# # 呼叫fit_transform
統計所有文章當中所有的詞,重複的只做一次 詞的列表 對單個英文本母不進行分類
對於中文,不適用與特徵分析,無法單詞抽取
解決方案:在中間打上空格
使用–> import jieba jieba.cut(「文字字串」)
返回值–>詞語生成器
**:
def
dictword()
: word1=
"君子在下位則多謗,在上位則多譽;小人在下位則多譽,在上位則多謗。"
word2=
"你若要喜愛你自己的價值,你就得給世界創造價值。"
word3=
"如果我們想交朋友,就要先為別人做些事——那些需要花時間、體力、體貼、奉獻才能做到的事"
list_1=
list
(jieba.cut(word1)
) list_2=
list
(jieba.cut(word2)
) list_3=
list
(jieba.cut(word3)
) jieba_1=
" ".join(list_1)
jieba_2=
" ".join(list_2)
jieba_3=
" ".join(list_3)
cv=countvectorizer(
) data=cv.fit_transform(
[jieba_1,jieba_2,jieba_3]
)print
(cv.get_feature_names())
print
(data.toarray(
))
執行結果:
文字特徵抽取
例項 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...
人工智慧簡史 人工智慧簡史
人工智慧簡史 在人工智慧的早期,計算機科學家試圖在計算機中重建人類思維的各個方面。這就是科幻 中的智力型別,即或多或少像我們一樣思考的機器。毫無疑問,這種型別的智慧型稱為可理解性。具有可理解性的計算機可用於探索我們如何推理,學習,判斷,感知和執行腦力活動。可懂度的早期研究集中於在計算機中對現實世界和...
人工智慧複習資料
1 搜尋與求解 2 學習與發現 3 知識與推理 4 發明與創造 5 感知與響應 6 理解與交流 7 記憶與聯想 8 競爭與協作 9 系統與建造 10 應用與工程 機器學習方法的三大類 監督學習 無監督學習 強化學習 不確定性推理原理 不確定性可以理解為在缺少足夠資訊的情況下做出判斷,是智慧型問題的本...