阿里輿情 輿情熱詞分析架構簡述(Demo學習)

2021-07-26 13:12:37 字數 1007 閱讀 9294

主要是詞包**,你懂得,阿里詞包都不用自己寫,本身一大堆啊!!!厲害了word哥:公眾趨勢分析背後有百萬級的人名、品牌、位址、組織機構名、商品、品牌詞庫等做支撐。

萬能詞包啊!!! . .

textrank的演算法思想**於pagerank,旨在通過文字中句子、詞之間的相互投票,為句子、詞進行權重的排序。pagerank假設乙個網頁的入鏈越多,則其權重越高。隨機地為每個網頁分配乙個初始權重,在每一輪投票中,每個網頁將其權重均勻地分配給其出鏈,收斂後(平穩馬爾科夫過程)每個網頁得到的權重值反映了其重要性,每輪投票的數學表述為:

其中d為阻尼係數,(1-d)/n表示每次頁面轉移時有一定的概率會從全網隨機選擇url,這樣可以避免沒有外鏈的懸掛網頁讓所有權重收斂到0。. .

詞關聯計算也可以使用社交網路的方式(點出度、點入度等,參考:r語言︱sna-社會關係網路

r語言實現專題(基礎篇)(一)),也可以使用一些統計學的方式(互資訊,

nlp︱句子級、詞語級以及句子-詞語之間相似性(相關名稱:文件特徵、詞特徵、詞權重))。

該平台使用的是互資訊.

詞關聯使用點互資訊pmi(pointwise mutual information)來表示,用資訊理論的語言來表述,點互資訊衡量的是「給定乙個隨機變數後,另乙個隨機變數不確定性的減少程度」。假設有兩個詞x和y,則x和y之間的點互資訊由下述公式表示:

其中p(x,y)表示x和y同時出現的概率,p(x)和p(y)分別表示x和y單獨出現的概率。簡單粗暴地理解,就是說相對於單獨出現,某兩個詞更喜歡一起出現,則它們之間的關聯程度越高。. .

輿情中的熱詞分析,沒你想的那麼簡單

阿里雲公眾趨勢分析產品通過雲服務的方式,將阿里巴巴成熟的輿情分析技術共享給廣大開發者。熱詞分析是公眾趨勢分析最近剛剛上線的功能,使用者反饋效果還不錯。這個功能聽起來很簡單,不就是對資料來源進行分詞,然後再統計一下熱度麼?no!它可沒那麼簡單。良好的分詞是熱詞分析的基礎。對於絕大部分分詞工具來說,最大...

微博爬蟲及輿情分析 4 使用者輿情分析

import pandas as pd import numpy as np 讀取訓練資料集 生成keyword資料 mblog keywords mblog.get keywords,axis 1 匯入邏輯回歸模型 from sklearn.linear model import logistic...

自嗨筆記 2 微博疫情輿情分析 輿情分析部分

previously!自嗨筆記 1 微博疫情輿情分析 爬取部分 二 建立需求 利用snownlp,情感分析 嘗試利用已有資訊,挖掘深度規律 三,實現 def snownlp c element try sn snownlp element return round sn.sentiments,1 e...