文字挖掘簡介及軟體安裝

2021-10-24 22:23:55 字數 861 閱讀 9359

文字挖掘

文字挖掘(text mining),又名文字分析、非格式化資料分析、非結構化資料分析

指從非結構化(非格式化)文字資料中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織資訊

現實世界中,可獲取的資訊絕大多數是以非結構化0維文字形式儲存的,如新聞、**、書籍、電子郵件和web網頁

這些資料都存在不同程度的非結構化問題,維度有低有高

結構化程度低的例如一篇純文字文章,結構化程度高的例如乙個精心設計的web網頁,內含格式化的標題、標籤、摘要、作者等等

中文文字挖掘資訊的精確度、正確率是世界性難題,為保證資訊最大限度的精確可用,實際工作中應以人工設定資訊格式為主,文字挖掘技術手段為輔:

挖掘再牛,不如使用者手動打標籤

分析再牛,不如使用者手動評分

本節內容

中文分詞-jieba

詞云-wordcloud

中文情感分析-snownlp

語義結構分析-gensim

需要安裝的庫

pip install msgpack-python

pip install msgpack

# 使用的庫

pip install jieba

pip install gensim

pip install snownlp

# wordcloud庫安裝見下

wordcloud-1.5.0-cp36-cp36m-win_amd64.whl

pip install e:/wordcloud-1.5.0-cp36-cp36m-win_amd64.whl

Homebrew簡介及安裝

homebrew官網 homebrew是神馬 linux系統有個讓人蛋疼的通病,軟體包依賴,好在當前主流的兩大發行版本都自帶了解決方案,red hat有yum,ubuntu有apt get 神馬,你用mac os,不好意mac os木有類似的東東,淚奔中幾經折騰總算找到了第三方支援 homebrew...

Redis安裝及簡介

redis是完全開源免費的,遵守bsd協議,是乙個高效能的key value資料庫。屬於前一講中的nosql資料庫一族。1.redis可以用來做儲存 storge 而memccached是用來做快取 cache 這個特點主要因為其有 持久化 的功能.2.儲存的資料有 結構 對於memcached來說...

Homebrew簡介及安裝

homebrew是神馬 homebrew,homebrew簡稱brew,是mac osx上的軟體包管理工具,能在mac中方便的安裝軟體或者解除安裝軟體,可以說homebrew就是mac下的apt get yum神器 homebrew安裝 homebrew的安裝非常簡單,開啟終端複製 貼上以下命令,回...