–真的沒有–
非結構化資料的資料探索不像結構化資料,結構化資料可以通過資料探索得到很多有用的資訊,非結構化資料的資料探索得到的資訊有限。
僅僅能夠得到字元出現的頻率、次數,新聞的長度等等
先觀察新聞長度
[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-z3ogyimq-1595425630998)(train_df[
'text_len'
]= train_df[
'text'].
(lambda x:
len(x.split(
' ')))
train_df[
'text_len'
].describe(
)
從圖中可以看出,分布比較極端,但是更多的都分布在1000左右個字元
觀察新聞種類數量
[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-usfsszdr-1595425631003)(train_df[
'label'
].value_counts(
).plot(kind=
'bar'
)
可以看出新聞類別的數量也是不均衡的,類別不均衡將會影響到模型的訓練結果。
出現最多的字元
出現最多的是,『3750』 共出現了7482207,其次是『648』出現了4924852,再其次是『900』出現了3177505。並且由於這三個字元在每篇新聞中的覆蓋率很高,我們有理由認為是三個標點符號。因此如果把這三個字元當作標點符號,那麼,每篇新聞平均有78個句子左右。from collections import counter
all_lines =
''.join(
list
(train_df[
'text'])
)word_count = counter(all_lines.split(
' ')
)word_count =
sorted
(word_count.items(
), key=
lambda d:d[1]
, reverse=
true
)word_count, word_count[0]
, word_count[-1
]
每種新聞類別出現頻率最高的字元
for n in train_df[
'label'
].unique(
).tolist():
data = train_df[train_df[
'label'
]==n]
all_lines =
''.join(
list
(data[
'text'])
) word_count = counter(all_lines.split(
' ')
) word_count =
sorted
(word_count.items(
), key=
lambda d:d[1]
, reverse=
true
('新聞種類:'
,n, word_count[0:
10])
新聞種類: 2 [('7399', 351887), ('6122', 343758), ('4939', 337756)]
新聞種類: 11 [ ('4939', 18591), ('6122', 18432), ('5560', 17933)]
新聞種類: 3 [ ('6122', 187922), ('4939', 173606), ('4893', 148767)]
新聞種類: 9 [('7328', 46426), ('6122', 43395), ('7399', 37560)]
新聞種類: 10 [ ('3370', 67775), ('2465', 44969), ('5560', 42447)]
新聞種類: 12 [('4464', 51393), ('3370', 45793), ('2465', 36589))]
新聞種類: 0 [('3370', 503448), ('4464', 306148), ('2465', 294242)]
新聞種類: 7 [('3370', 159142), ('5296', 132054), ('4464', 113117)]
新聞種類: 4 [ ('4411', 120131), ('7399', 86180), ('4893', 77408)]
新聞種類: 1 [ ('3370', 626663), ('900', 526300), ('4464', 445289)]
新聞種類: 6 [ ('6248', 193728), ('2555', 174927), ('5620', 156911)]
新聞種類: 5 [('6122', 159097), ('5598', 136710), ('4893', 130550)]
新聞種類: 8 [ ('6122', 57267), ('4939', 56147), ('913', 55199)]
新聞種類: 13 [('4939', 9651), ('669', 8923), ('6122', 8321)]
1入門 5探索資料
b 搜尋api b get bank search?q sort account number asc pretty rest方式搜尋bank索引下的所有資料,並且按照account number 上公升方式返回 類似下面的搜尋方式 get bank search body為 sort b 初步學習...
資料探勘 task2資料探索分析EDA
2.示例 載入各種資料科學以及視覺化庫 載入資料 資料總覽 判斷資料缺失和異常 了解 值的分布 特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布 數字特徵分析 型別特徵分析 用pandas profiling生成資料報告 import pandas as pd import numpy ...
2 ext4 我的大資料 探索(2)!
原系統 centos6.3 核心2.6.32 更新到3.6.9!不說廢話,直接走個 2 核心配置 不要抄襲網路上的使用勾選,勾選會報錯。涉及部分編譯成模組 make mrproper 清除環境變數,即清除配置檔案 make menuconfig 在選單模式下選擇需要編譯的核心模組 找到以下選中選項並...