微博情感分析 資料的獲取(一)

2021-09-04 12:05:18 字數 998 閱讀 6564

本人由於研究生的研究方向是自然語言處理、社會輿情分析這個方向的所以本科生畢業設計就選擇了微博情感分析這一方向的題目。主要是完成情感分析這個功能,並把每一步流程都做到。本科生階段可以說這方面實在知之甚少,所以隨著畢業設計進行的過程我也會一直學習,並在這裡分享我的學習過程及心得。

微博資料當然是基本了,我選擇了python來爬取微博資料,因為整個系統的重點在分類器的訓練,所以我只是在網上找了python的爬蟲**來做修改,但是其實沒有很符合我自己想法的**。

起初我的想法很簡單只是想爬取選好的幾十個人的全部微博,那麼主要的**只需要完成乙個人全部微博的爬取就可以了,其實**量很少。

爬取微博的**選擇的是手機端**即在登入自己的賬號後獲取當前的cookie,利用cookie模擬登入。這裡要說一下,cookie雖然會變,但我覺得變化的時長還是很長的所以其實這種方法是我看這麼多爬微博**裡最簡單的了。其餘的又去自動獲取cookie,獲取驗證碼手動填寫的,這樣的確實比較高階,但是由於我還是比較偷懶的所以就選擇了看起來最簡單的。

好了,說回來,乙個人全部微博的**很有規律,獲取分頁數量,頁數遞增即可,網頁的解析我剛開始選擇的是xpath,它很清晰和明了,一層一層的都能抓得到,所以說爬取個人全部微博可以說很快就執行成功了。

但之後我與老師交流,鑑於系統的擴充套件性等方面,資料的獲取,微博的人群,應該得到哪些資料都是值得好好想想的。如何能大面積的爬資料?如何能爬到各個地區人的資料?最後我決定從乙個人開始對他的粉絲進行廣度遍歷,爬取他的前多少的粉絲,再爬他粉絲的粉絲,這樣擴充套件下去,設定乙個值控制它的結束點。主要分三方面爬取,包括爬微博內容,包括發布時間,發布者的使用者id,爬使用者的資訊,暱稱,性別,位址等,最後將各個使用者之間建立聯絡也就是爬取粉絲列表,這樣也就是三張表完成了。我沒有直接爬到資料庫中而是爬到了excel表中這樣我看起來更加直觀,**也更好寫。在確定想法之後我便重新開始修改我的**。

後來的**我選擇了scrapy框架,因為我要爬到三個excel表中也有可能後期直接爬到mysql裡面,所以scrapy還是很值得推薦的,個人認為。它的檔案也不多,查了一下感覺功能分的還是挺清晰的。

微博評論的情感分析

文字處理 情感分析,文字相似度,文字分類 tf idf逆文件頻率 nlp 字串 向量化 貝葉斯訓練 測試 文字相似度 詞頻 文字分類 tf idf 詞頻 逆文件頻率 1.原始文字 2.分詞 3.詞行歸一化 4.去除停用詞 import os,re import numpy as np import ...

疫情下微博使用者情感分析 基於機器學習的微博情感分析

一 資料獲取 二 資料匯入與探索 全文運用python作為資料處理 的工具。首先利用pandas庫匯入資料並觀察一下前五行資料來看一下資料的大致情況 import pandas as pddata pd.read csv r c users zhousiying desktop weibo sent...

思路總結 對微博情感分析的的挖掘

原始資料 這一部分的內容,我們可以通過爬蟲技術來抓取。通過聚類演算法,找到相同話題的所有微博。然後拿來做為原始資料。還有就是使用者好友圈內的評價訊息,還有使用者產生的連線訊息,等等。這些都可以作為原始資料來歸入我們的資料庫。確訂目標 商業理解 資料理解 模型建立 有人說,搞資料探勘的人就是要來做這一...