人工智慧（文字特徵資料抽取）

sklearn.feature_extraction.text.countverctorizer

from sklearn.feature_extraction import dictvectorizer
from sklearn.feature_extraction.text import countvectorizer
defdictvet()
:# mydict=dictvectorizer(sparse=false)
# # 呼叫fit_transform
統計所有文章當中所有的詞，重複的只做一次 詞的列表 對單個英文本母不進行分類
對於中文，不適用與特徵分析，無法單詞抽取
解決方案：在中間打上空格
使用–> import jieba jieba.cut(「文字字串」)
返回值–>詞語生成器
**：
def
dictword()
:    word1=
"君子在下位則多謗，在上位則多譽；小人在下位則多譽，在上位則多謗。"
word2=
"你若要喜愛你自己的價值，你就得給世界創造價值。"
word3=
"如果我們想交朋友，就要先為別人做些事——那些需要花時間、體力、體貼、奉獻才能做到的事"
list_1=
list
(jieba.cut(word1)
)    list_2=
list
(jieba.cut(word2)
)    list_3=
list
(jieba.cut(word3)
)    jieba_1=
" ".join(list_1)
jieba_2=
" ".join(list_2)
jieba_3=
" ".join(list_3)
cv=countvectorizer(
)    data=cv.fit_transform(
[jieba_1,jieba_2,jieba_3]
)print
(cv.get_feature_names())
print
(data.toarray(
))
執行結果：
				文字特徵抽取
例項 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...
				人工智慧簡史  人工智慧簡史
人工智慧簡史 在人工智慧的早期，計算機科學家試圖在計算機中重建人類思維的各個方面。這就是科幻 中的智力型別，即或多或少像我們一樣思考的機器。毫無疑問，這種型別的智慧型稱為可理解性。具有可理解性的計算機可用於探索我們如何推理，學習，判斷，感知和執行腦力活動。可懂度的早期研究集中於在計算機中對現實世界和...
				人工智慧複習資料
1 搜尋與求解 2 學習與發現 3 知識與推理 4 發明與創造 5 感知與響應 6 理解與交流 7 記憶與聯想 8 競爭與協作 9 系統與建造 10 應用與工程 機器學習方法的三大類 監督學習 無監督學習 強化學習 不確定性推理原理 不確定性可以理解為在缺少足夠資訊的情況下做出判斷，是智慧型問題的本...

人工智慧（文字特徵資料抽取）

文字特徵抽取

人工智慧簡史 人工智慧簡史

人工智慧複習資料

相關推薦

人工智慧簡史人工智慧簡史