大資料視覺化課程筆記 6

2021-10-10 09:57:28 字數 1572 閱讀 8655

6.2 文字資訊分析

6.3 文字資料視覺化

對文字的理解需求分為**:詞彙級、語法級和語義級。

詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。

文字資料類別分為: 單文字, 文件集合, 時序文字。

url(統一資源定位符)格式:protocol://hostname[pr/]pat/;parametersj[?query]#fragment

tf-idf

tf-idf (term frequency-inverse document frequency)是一種用於資訊檢索與資料探勘的常用加權技術。tf的含義是詞頻(term frequency),idf的含義是逆文字頻率指數(inversedocument frequency)。

t-df的主要思想是:字詞在某個文字的重要性與它在這個文字**現的次數正相關,但同時也會隨著它在文件集合**現的頻率增加而下降。

主題模型是對文字中隱含主題的一種建模方法,它從語義級別描述文件集中的各個文字資訊。文字主題的抽取演算法大致可分為兩類:基於貝葉斯的概率模型和基於矩陣分解的非概率模型。

文字資料視覺化可以分為文字內容的視覺化,文字關係的視覺化以及文字多特徵資訊的視覺化。

時序文字視覺化

(1) 主題河流:

主題河流主要用於反映文字主題強弱變化的過程。

經典的主題河流模型包括以下兩個屬性:

<1>顏色:表示主題的型別,乙個主題用乙個單一顏色的湧流表示。

<2>寬度:表示主題的數量(或強度),湧流的狀態隨著主題的變化,可能擴充套件、收縮或者保持不變。

(2) 文字流:

文字流是主題河流視覺化技術的一種擴充套件,它不僅可以表達主題的變化,還能隨著時間的推移展示各個主題之間**與合併的狀態。

(3) 故事流:

故事流常用來表示電影或者**裡的劇情線或者時間線。

文字分布視覺化

文字弧視覺化技術不僅可以展現詞頻,還可以展示詞的分布情況。

文字湖的特性如下:

(1) 用一條螺旋線表示一篇文章,螺旋線的首尾對應著文章的首尾,文章的詞語有序的分布在螺旋線上。

(2) 若詞語在整篇文章**現的比較頻繁,則靠近畫布的中心區域分布。

(3) 若詞語只是在區域性出現的比較頻繁,則靠近螺旋線分布。

(4) 字型的大小和顏色深度代表著詞語的出現頻率。

基於圖的文字關係視覺化:

(1) 詞語樹:

詞語數使用樹形圖展示詞語在文字中的出現情況,可以直觀地呈現出乙個詞語和其前後的詞語,使用者可自定義感興趣的詞語作為中心節點,中心節點向前擴充套件,就是文字中處於該詞與前面的詞語,中心節點向後擴充套件,就是文字中處於該詞語後面的詞語。字型大小大小代表了詞語在文字**現的頻率。

(2) 短語網路:

短語網路包括以下兩種屬性:

<1>節點:代表乙個詞語或短語。

<2>帶箭頭的連線:表示節點與節點與節點之間的關係,需要使用者定義。

文件間資料視覺化

(1) 星系檢視:

星系檢視可用於表徵多個文件之間的相似性。

(2) 文件集抽樣投影:

當乙個文件集中包含的文件數量過大時,投影出來的星系檢視中就會產生很多重疊的星星。

大資料視覺化課程筆記 1

模式 指資料中的規律 關係 指資料之間的相關性,在統計學中,通常代表關聯性和因果性 資料的關係分為三類 資料間的比較,資料的構成,資料的分布或聯絡 異常 指有問題的資料 異常的資料不一定是錯誤的資料,有些事裝置出錯或人為輸入錯誤,有些可能是正確的資料 難題 1 大量資料不能有效利用 2 資料展示模式...

大資料視覺化(四)比例資料視覺化

比例資料根據類別 子類別 群體進行劃分。可以呈現各個部分與其他部分的相對關係,還可以呈現整體的構成情況 不太適合表示精確的資料 適合呈現各部分在整體中的比例,體現部分與整體之間的關係 data pd.read csv data vote result.csv datab data areas of ...

大資料視覺化(五)關係資料視覺化

關係資料具有關聯性與分布性 兩個量化資料之間的數理關係 通過資料關聯性可已根據乙個已知的數值變化來 另乙個數值的變化。正相關 負相關 不相關 散點圖 crime pd.read csv data crimeratesbystate2005.csv scatter add xaxis crime mu...