一、文字挖掘定義
文字挖掘指的是從文字資料中獲取有價值的資訊和知識,它是資料探勘中的一種方法。文字挖掘中最重要最基本的應用是實現文字的分類和聚類,前者是有監督的挖掘演算法,後者是無監督的挖掘演算法。
二、文字挖掘步驟
1)讀取資料庫或本地外部文字檔案
2)文字分詞
2.1)自定義字典
2.2)自定義停止詞
2.3)分詞
2.4)文字雲檢索哪些詞切的不準確、哪些詞沒有意義,需要迴圈2.1、2.2和 2.3步驟
3)構建文件-詞條矩陣並轉換為資料框
4)對資料框建立統計、挖掘模型
5)結果反饋
三、文字挖掘所需工具
四、實戰
接下來需要對新聞內容進行分詞,在分詞之前需要匯入一些自定義字典,目的是提高切詞的準確性。由於文字中涉及到軍事、醫療、財經、體育等方面的內容,故需要將搜狗字典插入到本次分析的字典集中。
如果需要解除安裝某些已匯入字典的話,可以使用uninstalldict()函式。
分詞前將中文中的英文本母統統去掉。
圖中圈出來的詞對後續的分析並沒有什麼實際意義,故需要將其剔除,即刪除停止詞。
停止詞建立好後,該如何刪除76條新聞中實際意義的詞呢?下面通過自定義刪除停止詞的函式加以實現。
相比與之前的分詞結果,這裡**了很多,剔除了諸如「是」、「的」、「到」、「這」等無意義的次。 判別分詞結果的好壞,最快捷的方法是繪製文字雲,可以清晰的檢視哪些詞不該出現或哪些詞分割的不準確。
仍然存在一些無意義的詞(如說、日、個、去等)和分割不準確的詞語(如**周切割為**,醫藥切割為藥等),這裡限於篇幅的原因,就不進行再次新增自定義詞彙和停止詞。
此時語料庫中存放了76條新聞的分詞結果。
從圖中可知,文件-詞條矩陣包含了76行和7939列,行代表76條新聞,列代表7939個詞;該矩陣實際上為稀疏矩陣,其中矩陣中非0元素有11655個,而0元素有591709,稀疏率達到98%;最後,這7939個詞中,最頻繁的乙個詞出現在了49條新聞中。
由於稀疏矩陣的稀疏率過高,這裡將剔除一些出現頻次極地的詞語。
這樣一來,矩陣中列大幅減少,當前矩陣只包含了116列,即116個詞語。
為了便於進一步的統計建模,需要將矩陣轉換為資料框格式。
總結免費公開課福利:
手把手教您改錯賬
自 http cloudorsunorrain.spaces.live.com blog 做為一名財會人員,謹慎的工作態度是做好會計工作的前提,但是填製會計憑證或登記賬簿時由於疏忽會偶爾發生一些差錯,對產生的這些差錯,如何查詢並更正呢?我們通過以下幾方面的介紹,幫您完善會計工作。追本溯源 教您找錯賬...
手把手教您完成Elasticsearch資料遷移
您可以通過logstash reindex和oss等多種方式在elasticsearch之間遷移資料。本文以阿里雲elasticsearch 簡稱es 為例,介紹阿里雲elasticsearch間資料遷移 自建es資料遷移至阿里雲es和第三方es遷移至阿里雲es的方案,幫助您根據業務選擇合適的場景進...
手把手教你做flash RPG
第一步 匯入資料 首先在flash中匯入人物走路的,如下圖 第二步 製作向前後左右走路的影片剪輯 把剛才匯入的,分別製作成4個影片剪輯a,d,s,w,用來描述走路的過程,如下圖 第三步 製作walk影片剪輯,在主場景中建立乙個walk影片剪輯,在walk中建立8個關鍵幀,幀標籤分別是 right l...