python文字挖掘（一）初探jieba分詞包

一、jieba簡介

近年來，隨著機器學習越來越火，python也跟著火了起來，而python在資料探勘領域的使用也越來越廣泛。在python的第三方包裡，jieba應該算得上是分詞領域的佼佼者，想要使用python做文字分析，分詞是必不可少的乙個環節。

二、安裝說明

1、python2.x

開啟cmd（命令提示符）或prompt（anaconda），輸入pip install jieba

2、python3.x

開啟cmd（命令提示符）或prompt（anaconda），輸入pip3 install jieba3k

三、功能展示

1、分詞

**示例

#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all=true)
print("full mode:", "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我來到北京清華大學", cut_all=false)
print("default mode:", "/ ".join(seg_list))  # 精確模式
seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

Python文字挖掘練習（一）新聞摘要

1 掌握讀取文件內容文章分句文字分詞的方法 2 掌握文字向量化，剔除停用詞 3 掌握用cosine方法計算文件相似度，並基於此提取文件摘要 4 將過程封裝成函式，方便呼叫函式功能實現文字摘要引數說明 path 文件路徑 num summary 摘要長短返回 result 摘要 impor...

資料探勘文字分類（一）綜述

本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程，實驗一便是資料探勘入門級的實驗文字分類。第一次自己寫花了很長時間終於把實驗做完了，在這裡記錄一下。一，先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的分詞工具中科院張華平博士的漢語詞法分析系統ictcla...

文字挖掘學習筆記（一）布林檢索

最近在學習文字挖掘，故而把書中關鍵的內容做個筆記，方便以後查閱。資訊檢索是從大規模非結構化資料通常是文字的集合通常儲存在計算機上中找出滿足使用者需求的資料的通常是文件的過程。按照所處理的資料的規模，資訊檢索可以分為三個級別第乙個級別是以web搜尋為代表的大規模級別第二個級別是小規模，...

python文字挖掘（一） 初探jieba分詞包

Python文字挖掘練習（一） 新聞摘要

資料探勘 文字分類（一） 綜述

文字挖掘學習筆記（一） 布林檢索

相關推薦

python文字挖掘（一）初探jieba分詞包

Python文字挖掘練習（一）新聞摘要

資料探勘文字分類（一）綜述

文字挖掘學習筆記（一）布林檢索