情感分析之資料獲取與預處理

2021-10-08 06:59:48 字數 574 閱讀 8183

資料集資訊

清洗準則索引

清洗類別

資料例項

1含有使用者名稱

資料例項

2小於4字元

你說呢?

情感標籤

情感類別

情感細分

1正向情感

建議、感動、支援、緬懷、祝願、同情、開心、慶幸、讚美、反思

0負向情感

質疑、無奈、憤怒、調侃、批判、悲哀、憤慨、惋惜、抱怨、謾罵、憂慮

情感標註完畢後,需要通過上取樣和下取樣平衡兩類資料,最終保留正向情感和負向情感資料各17900條,並按照6:2:2的比例劃分訓練集、驗證集和測試集。

使用jieba分詞工具對資料進行分詞,jieba是乙個開源的中文分詞工具,提供了三種模式:精確模式、全模式和搜尋引擎模式。本文採用精確模式,以便將句子最精確地切開。jieba分詞支援載入使用者自定義詞典,以提高分詞準確率。

訓練集驗證集

測試集詞彙表

類別35800

21480

7160

7160

41867

211.16

50

情感分析資料預處理過程

訓練資料預處理 import numpy as np from sklearn.utils import shuffle import osimport matplotlib.pyplot as plt hotel feedbacks dir hotel feedbacks sentiment al...

情感分析中文字資料預處理

text data.field sequential true,tokenize tokenizer,fix length 1000,stop words stop words label data.field sequential false,use vocab false torchtext 的...

資料分析與挖掘之資料預處理

目錄 資料整合 簡單變換 資料規範化 標準化 1 離差標準化 歸一化 2 z score標準化 0 1標準化 3 小數定標規範化 資料規範化 離散化 1 等寬離散化 2 等頻率離散化 3 優化離散 資料整合 import numpy a numpy.array 1,5,6 9,4,3 b numpy...