python文字挖掘(一) 初探jieba分詞包

2021-07-30 12:39:36 字數 871 閱讀 7525

一、jieba簡介

近年來,隨著機器學習越來越火,python也跟著火了起來,而python在資料探勘領域的使用也越來越廣泛。在python的第三方包裡,jieba應該算得上是分詞領域的佼佼者,想要使用python做文字分析,分詞是必不可少的乙個環節。

二、安裝說明

1、python2.x

開啟cmd(命令提示符)或prompt(anaconda),輸入pip install jieba

2、python3.x

開啟cmd(命令提示符)或prompt(anaconda),輸入pip3 install jieba3k

三、功能展示

1、分詞

**示例

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=true)

print("full mode:", "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=false)

print("default mode:", "/ ".join(seg_list)) # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式

print(", ".join(seg_list))

Python文字挖掘練習(一) 新聞摘要

1 掌握讀取文件內容 文章分句 文字分詞的方法 2 掌握文字向量化,剔除停用詞 3 掌握用cosine方法計算文件相似度,並基於此提取文件摘要 4 將過程封裝成函式,方便呼叫 函式功能 實現文字摘要 引數說明 path 文件路徑 num summary 摘要長短 返回 result 摘要 impor...

資料探勘 文字分類(一) 綜述

本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程,實驗一便是資料探勘入門級的實驗 文字分類。第一次自己寫 花了很長時間終於把實驗做完了,在這裡記錄一下。一,先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的 分詞工具 中科院張華平博士的漢語詞法分析系統ictcla...

文字挖掘學習筆記(一) 布林檢索

最近在學習文字挖掘,故而把書中關鍵的內容做個筆記,方便以後查閱。資訊檢索是從大規模非結構化資料 通常是文字 的集合 通常儲存在計算機上 中找出滿足使用者需求的資料的 通常是文件 的過程。按照所處理的資料的規模,資訊檢索可以分為三個級別 第乙個級別是以web搜尋為代表的大規模級別 第二個級別是小規模,...