此次記錄為對現階段工作的總結和下一階段工作展開的簡單設計 --寫於2019.7.15 14:30
1.3視窗的動態劃分
1.3.1預先設定最小視窗長度單位和相似度指標
設定視窗最小長度單位time-div,也是視窗在動態調整過程中最小擴大或縮小的單位長度,單位為秒。設定相似度指標score,score=視窗內相似度-0.7視窗間相似度+1。
1.3.2擴大視窗
令視窗變化量time為time-div,視窗初始大小為0
令視窗擴大,增量為time,計算此時視窗整體相似度totalscore
若totalscore>score且視窗內文字數量》100 則退出迴圈 否則time加倍
直到資料集全部處理完
1.3.2縮小視窗
令變化量time減半
當totalscore與score誤差在0.0005時退出迴圈
若totalscore過大,則縮小視窗,變化量為time
若totalscore過小,則增大視窗,變化量為time
更新視窗相似度和文字數量
保證視窗內文字數量不小於100 否則呼叫擴大視窗函式
直到變化量time為乙個單位
1.5輸出結果
輸出儲存每個動態視窗的起止時間,視窗大小,視窗內文字數量及主題詞
2.1.1結果的週期性
對於自然災害的網路輿情來講,往往事件一發生即達到高峰,熱度隨著時間推移逐漸降低,因此整體來看視窗的動態劃分初期應該細且密,後期視窗長度逐漸變大。另外從微博使用者的作息來看,白天使用者比較活躍,半夜絕大多數使用者都在休息,因此晚上的時間劃分要比白天大。對照結果來看符合其規律。
2.1.2主題詞的變化分析
主題詞集中程度很高,文字數量往往集中在乙個或兩個聚類中。另外,不同視窗間主題詞的確存在變化,或多或少,但整體來看各視窗主題仍然符合事件主題。
2.1.3更改引數的結果對比
令score=1.24不變
當time-div=600時,視窗劃分如圖
當time-div=300時,視窗劃分如圖
根據兩份結果來看,在引數socre不變的情況下,改變時間引數得到的視窗劃分區別很小,故設想可以取消時間引數的人為設定,改為固定值。此時將時間引數改為900即15min做猜想驗證,發現存在劃定的視窗內僅2條文本無法進行聚類的情況(k=4)這顯然是不合理的,故增加了劃定視窗時文字數量不得小於100的條件
改進後結果如圖
3.1缺少評價標準。無法精確驗證得出結果的合理程度,不能良好進行對比實驗。
3.2運用方法的不確定。目前使用的聚類方法km方法存在k值難以確定的問題,可能對結果造成明顯影響。同時使用的計算相似度的方法余弦相似度的在此處的效能也有待考察。
3.3預設值的主觀性。當前設定的預設值score及time-div全部帶有很強的主觀星,且score=視窗內相似度-0.7視窗間相似度+1的設定缺乏理論依據。
3.4預處理過程的不足。當前僅對原始資料集進行了分詞的處理,在很大程度上缺失了預處理部分。
3.5創新性的不足。核心功能,思想及使用技術上與《基於動態主題模型的時間視窗劃分研究》一文重合度較高。
3.6電腦效能的限制。電腦效能的不足導致無法做充足的對比實驗,比如無法提高score的值,否則電腦將宕機。
4.1增大文獻的閱讀量和麵。尋找合理的評價標準,預定值設定標準,加強創新點。
4.2改變使用的方法。尋找其他聚類方法,避免k值確定的問題。嘗試其他相似度計算的方法做對比實驗。
4.3加強預處理。對原始資料集進行清洗,比如去除文字帶有的標籤等。
4.4考慮文字聚類與時序的結合,考慮資料集中週期性的發掘和利用。