基於語義特徵的網路輿情正負面監測

2021-06-10 11:14:32 字數 2937 閱讀 6103

網路評價和資訊的正負面識別,包括優捷信達科技在內的技術領先型輿情口碑監測公司,都是通過極性分類(polarity classification)這一步驟來實現,極性分類首先將具有情感傾向的相關詞語提取出來,叫做「特徵提取」(feature extraction)。簡單來說,如何通過計算機判別正負面,就是通過提取句子中的正負面詞語,通過詞語的正負面來判斷文章的正負面傾向。

到目前為止,基於優捷信達科技的研究調查,目前業內主要特徵提取技術分別是「基於語義」和「基於詞出現及頻率」兩種模式。本文將重點討論基於語義特徵的模式,下一章將介紹基於詞的出現及其頻率的模式,並分別討論它們的優缺點。

基於語義特徵的特徵提取模式,也就是根據詞語表達的意思,即根據字面意思來辨析句子所表達的正負面。這一方式有三個重要的代表性方法。分別是:人工建構情感詞條的方法、pmi-ir 演算法(pmi-ir algorithm)和同義詞與反義詞方法。

1.  人工建構情感詞條

tetsuya nasukawa和jeonghee yi在2023年提出的特徵提取的方法就是基於語義分析方法的原型之一。他們通過識別特定主題詞和語氣表示式之間的語義關係進行傾向性分析,採用自然語言處理技術分析特定主題和語氣詞之間的語義關聯。具體方法如下:

第一步,他們首先手動構建了乙個有3513個詞條的情感詞彙表。字典中每個詞語都包括情感,詞性標記和規範形式的情感詞,比如(好,詞性標記為正面,惡劣,詞性標記為負面)。如果收錄的情感詞是乙個動詞,只要通過這一動詞產生了情感,該動詞的賓語也將會被收錄(比如:優捷信達科技致力於以高科技產品滿足客戶需求。如果「致力於」作為乙個收錄的情感詞並標記為正面,那麼它所描述的「以高科技產品滿足客戶需求」就被認定為正面資訊)。

第三步,將提取出來的情感詞,放到之前人工構建的情感詞典裡檢索,找到情感詞典中對應的詞語以及它的正負面極性。這樣就完成了乙個文字片段的情感極性判斷。

通過以上方法,他們實驗的準確率(精度)大約是75% - 95%,但相對檢索內容的查全率(召回率)較低,只有20% - 25%。也就是說,實驗檢索結果整體是非常準確的,但是也有大量的資料沒有抓取到,查全率較低。

因為有來自於手工設定的情感詞彙表,這種演算法可以分析形容詞、副詞、名詞和動詞的情感極性。此外,他們還能理解否定句和被動句。而且,這種方法不僅可以分析情感正負面,還可以提取出正負面所對應的主題。

然而,這個系統也有幾個較為明顯的弱點。首先,這個系統需要大量的人工操作,當需要針對海量資料進行分析時,人工設定詞庫的工作量將會非常巨大。第二,儘管它可以解決否定句和被動句,但是在處理更複雜的句法結構,比如雙重否定句時,就有可能發生誤判。第三,因為查全率較低,該系統不能有效地區分哪些是對客觀事物的描述,哪些是主觀情感的抒發。導致查全率低的原因是系統的情感詞庫是由人工輸入,而讓人工輸入全部的情感詞是一件不太可能的事情。 

2.  pmi-ir 演算法(pmi-ir algorithm)

pmi-ir演算法是特尼在2023年設計的,與第一種人工建構情感詞條的方法相比,它們特徵選取方法基本相同,但是它不涉及太多人工手動工作,並且這一方法可以針對整個篇章進行分類,而不是僅僅針對一小段文字,來提取相關主題的正負面資訊。

具體步驟如下:

第二步,將其中的每個情感詞都看做乙個可統計互資訊的點,然後通過點式互資訊的計算公式計算出各個情感詞和參考詞之間的互資訊。點式互資訊的計算公式如下所示:

第三步,通過下面公式計算,可以得出乙個片語」w「的情感傾向分值so,通過不同的分值,可以判斷為正面或者是負面,這樣,自動分類過程就做完了。

特尼的這種演算法並不需要任何人工標註操作,更為重要的是,由於情感傾向分值so(w)是乙個數值,這個演算法不僅能通過數值的正負數來分辨出情感的正負面,而且可以計算出情感強度,數值越高,代表正面情感越強烈。這能很好的幫助客戶評估網路輿情正負面資訊的強度。 優捷信達科技的網路輿情和口碑監測採用這一演算法進行輔助評估輿情強度。

3. 同義詞與反義詞

同義詞和反義詞方法是minqing hu和bing liu在2023年提出的演算法,這種方法會給每乙個通過系統提取出來的主觀評價句子或者段落賦予乙個情感極性。這種方法將有效地解決了網路負擔過重的問題。

首先,當他們在某一句話中發現了情感詞,將會通過檢查情感詞資料庫(wordnet)來對這個情感詞進行分類,尋找這個詞的同義詞和反義詞,直到他們找到乙個詞(可能是這個待定情感詞的同義詞或者反義詞)和這個詞已知的情感關係。這樣,新發現的情感詞就被標註為與同義詞相同的情感趨勢、與反義詞相反的情感趨勢。比如,通過系統發現乙個情感詞「溺愛」,通過資料庫尋找,發現「喜愛」是「溺愛「的同義詞,而資料庫中又標註了「喜愛」的情感是正面的,那麼可得「溺愛」的情感也是正面的。

第二,與之前描述的兩種方法類似,他們還基於句子中出現的情感詞所表達的情感傾向性,對每乙個句子的極性進行分類。整個句子的語義傾向性是通過簡單的加權平均,將整個句子裡出現的每乙個情感詞的語義傾向性進行計算而得出。同上例,句子中出現了「溺愛」,沒有出現其他情感詞,那麼可以認定這個句子從網路輿情來看是正面的。

這種方法的準確率達到56% - 79%,查全率(召回率)能達到67% - 80%。儘管他們只是改進了情感詞的抓取演算法,而不是情感傾向分值so的計算方法,但是他們這種方式不需要完整搜尋準確的詞,而只是通過同義詞和反義詞來判斷正負面,極大地減輕了網路的負擔。

以上三種方式的執行原理很簡單,就是通過計算機來辨析相關詞語的正負面,然後進行統計。但是這種基於語義的方式存在很多無法徹底解決的問題,且工作量較大、實驗精度和查全率不夠高。基於此,科學界研究出另外一種特徵提取方法——基於詞條出現規律的特徵提取方法。這種特徵提取方法忽視了詞的語義,而是重點評估出現更高頻率的詞語的情感極性。儘管這種統計方法看起來不符合我們的直覺,但卻由於在處理複雜的句法結構甚至複雜的表達結構的上佳表現,得到了業界越來越多的關注。

輿情監測平台 網路輿情傳播的特徵及應對策略

1 網路輿情是指在大資料技術背景當中,眾多網民相關社會經濟發展 社會現象 虛擬社會經濟發展 各式各樣情況 難點所描述的自信心 心理狀態 提議和心理狀態具體表現的數量,或簡言之為網路 和民聲。網路輿情危機 是針對某一與眾不同刺激事項所導致的涉及人民群眾利益較深覆蓋面廣的網路輿情,在乙個相對短時間內轉換...

網路輿情傳播的特徵及應對策略

1 網路輿情是指在大資料技術背景當中,眾多網民相關社會經濟發展 社會現象 虛擬社會經濟發展 各式各樣情況 難點所描述的自信心 心理狀態 提議和心理狀態具體表現的數量,或簡言之為網路 和民聲。網路輿情危機 是針對某一與眾不同刺激事項所導致的涉及人民群眾利益較深覆蓋面廣的網路輿情,在乙個相對短時間內轉換...

基於語義分割和生成對抗網路的缺陷檢測演算法

如下圖所示,缺陷型別主要有缺損和裂紋兩個型別。語義分割網路 u net的最初提出是為了醫學影象的分割,現在被越來越多的應用到其它領域。u net的思想還是很簡單,具體演算法介紹請參考 u net分割網路 dsn 缺陷分割網路 借鑑fcn和u net網路,在這裡提出了一種新的語義分割網路,dsn 缺陷...