周二的主題提取使用lda模型進行了簡單的測試,效果還可以。主要是提取的分詞的結果,lda:隨機生成文章各個主題比例,再根據各個主題隨機生成詞,詞與詞之間的順序關係被徹底忽略了,這就是lda眼中世間所有文章的生成過程!
這篇部落格介紹的很詳細了。
對於一篇新聞先進行標準一點的分詞,然後進行訓練,這裡我生成了5*5的主題分布,最後每個詞都會有乙個概率,每個主題展示出現概率最高5個詞。
今天只是試驗了一下這個模型的使用進行了提取。github上有很多lda的使用原始碼,感興趣的可以去康康。
明天計畫:考慮全網關聯以及主題追蹤
我的思路是:爬取清洗入庫-》關鍵字、摘要、分類、情感等基礎資訊-》主題提取(細化關鍵字)-》多執行緒觸發爬蟲-》全網資訊關聯(關聯這裡目前考慮的是不同**的類似新聞去重以及內容合併,打算明天問一下老師這裡的具體內容)-》主題追蹤(目前考慮的是上面提取的主題詞和其他新聞的主題詞迴圈相似度判比,判比演算法這裡考慮simhash+漢明距離,因為時間上要快,對比相對來說比較準確)
上面這個思路可能問題很多,希望看到這篇部落格的大牛指導一下。(網路輿情監控系統)
作業(2018 05 02,第九周週三)
leetcode 46 permutations given a collection of distinct integers,return all possible permutations.example input 1,2,3 output 1,2,3 1,3,2 2,1,3 2,3,1 3...
第九周總結
二 從 activitythread main 到 activity oncreate handler 訊息機制 handler 訊息機制除了 handler 本身外,還包含 looper messagequeue message,訊息機制需要有訊息佇列 訊息迴圈 訊息處理 如下 handler 傳...
第九周總結
這個作業屬於那個課程 c語言程式設計ii 這個作業要求在 我在這個課程的目標是 進一步掌握結構的運用 這個作業在那個具體方面幫助我實現目標 更加熟悉結構的基本流程與陣列的使用 參考文獻 c語言書與網上的查詢 本題要求實現乙個根據學生成績設定其等級,並統計不及格人數的簡單函式。int set grad...