文字挖掘
文字挖掘(text mining),又名文字分析、非格式化資料分析、非結構化資料分析
指從非結構化(非格式化)文字資料中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織資訊
現實世界中,可獲取的資訊絕大多數是以非結構化0維文字形式儲存的,如新聞、**、書籍、電子郵件和web網頁
這些資料都存在不同程度的非結構化問題,維度有低有高
結構化程度低的例如一篇純文字文章,結構化程度高的例如乙個精心設計的web網頁,內含格式化的標題、標籤、摘要、作者等等
中文文字挖掘資訊的精確度、正確率是世界性難題,為保證資訊最大限度的精確可用,實際工作中應以人工設定資訊格式為主,文字挖掘技術手段為輔:
挖掘再牛,不如使用者手動打標籤
分析再牛,不如使用者手動評分
本節內容
中文分詞-jieba
詞云-wordcloud
中文情感分析-snownlp
語義結構分析-gensim
需要安裝的庫
pip install msgpack-python
pip install msgpack
# 使用的庫
pip install jieba
pip install gensim
pip install snownlp
# wordcloud庫安裝見下
wordcloud-1.5.0-cp36-cp36m-win_amd64.whl
pip install e:/wordcloud-1.5.0-cp36-cp36m-win_amd64.whl
Homebrew簡介及安裝
homebrew官網 homebrew是神馬 linux系統有個讓人蛋疼的通病,軟體包依賴,好在當前主流的兩大發行版本都自帶了解決方案,red hat有yum,ubuntu有apt get 神馬,你用mac os,不好意mac os木有類似的東東,淚奔中幾經折騰總算找到了第三方支援 homebrew...
Redis安裝及簡介
redis是完全開源免費的,遵守bsd協議,是乙個高效能的key value資料庫。屬於前一講中的nosql資料庫一族。1.redis可以用來做儲存 storge 而memccached是用來做快取 cache 這個特點主要因為其有 持久化 的功能.2.儲存的資料有 結構 對於memcached來說...
Homebrew簡介及安裝
homebrew是神馬 homebrew,homebrew簡稱brew,是mac osx上的軟體包管理工具,能在mac中方便的安裝軟體或者解除安裝軟體,可以說homebrew就是mac下的apt get yum神器 homebrew安裝 homebrew的安裝非常簡單,開啟終端複製 貼上以下命令,回...