原始資料
這一部分的內容,我們可以通過爬蟲技術來抓取。通過聚類演算法,找到相同話題的所有微博。然後拿來做為原始資料。還有就是使用者好友圈內的評價訊息,還有使用者產生的連線訊息,等等。這些都可以作為原始資料來歸入我們的資料庫。
確訂目標(商業理解)
資料理解
模型建立
有人說,搞資料探勘的人就是要來做這一部分的內容。你要建立乙個好的模型,那以後的資料通過你的這個模型,那麼你所需要的內容自動地就會呈現出來。而這一部分也是整個資料探勘裡最難的部分。
比如說我們的微博資料,我們可以通過決策樹演算法建立模型。最後輸出那些關健字的客戶就是我們的目標客戶。又或者,我們可以通過神經網路的演算法建立模型,找到相關的所的決策項。實際上,資料探勘所用到的方法很多,也很複雜,我也是到現在還是沒有弄清楚一些演算法的核心思想。但這樣並不影響我們來使用相關的演算法來進行挖掘。再者說,現在的挖掘物件,真正上pb內容的資料也不是很多的。很多企業還停留在小型機的階段。所以,有的時候,我會開玩笑的說:資料量太小的話,execl會更好一些,然後是access資料庫。再然後就是orcale資料庫.....
模型建立是乙個比較幸苦的工作,可是如果建立完成後,一般3-5年不會發生變化。比如我們現在的信用卡的信用評分系統。
模型評估
這一部分內容,是進行相關優化。也就是說模型建立好了,開始要跑業務了。要測試一下看它到底能跑到什麼樣的程度。有的時候,你挖掘了半年,也找到的目標客戶,結果被其他人先用其他方法吸引走了,怎麼辦?所以才要有模型評估這件工作。
先將大資料裡的一部分資料,一般是40%拿來先做訓練,你也可以拿少量來試一試。然後看完成這些資料需要多長時間。換了其他的演算法後,是否可以提高挖掘時間。一般這一步的資料分配要遵守乙個4:3:3的原則,即40%拿來做訓練,30%來做測試,另外的30%拿來做驗證。綜合來說,才能夠評價這個模型的好壞,以及這個模型是否能產生它的相應價值。
發布模型
這是最後一步,讓所有微博資料進行相應的演算法優化。進而達到最好的挖掘效果。
再來說說在文字挖掘中的思路,少量的文字資訊。我們可以放在在word裡用複製貼上來完成,多的話可以用excel,再多的話可以用u1,要是還是多就用sas與r,再多就用其他的了,具體什麼軟體,我也沒用過。
好了,就先總結這麼多吧。下週有空再寫吧!
微博評論的情感分析
文字處理 情感分析,文字相似度,文字分類 tf idf逆文件頻率 nlp 字串 向量化 貝葉斯訓練 測試 文字相似度 詞頻 文字分類 tf idf 詞頻 逆文件頻率 1.原始文字 2.分詞 3.詞行歸一化 4.去除停用詞 import os,re import numpy as np import ...
微博情感分析 資料的獲取(一)
本人由於研究生的研究方向是自然語言處理 社會輿情分析這個方向的所以本科生畢業設計就選擇了微博情感分析這一方向的題目。主要是完成情感分析這個功能,並把每一步流程都做到。本科生階段可以說這方面實在知之甚少,所以隨著畢業設計進行的過程我也會一直學習,並在這裡分享我的學習過程及心得。微博資料當然是基本了,我...
疫情下微博使用者情感分析 基於機器學習的微博情感分析
一 資料獲取 二 資料匯入與探索 全文運用python作為資料處理 的工具。首先利用pandas庫匯入資料並觀察一下前五行資料來看一下資料的大致情況 import pandas as pddata pd.read csv r c users zhousiying desktop weibo sent...