筆記 資料之美

2022-07-25 01:51:10 字數 3525 閱讀 1557

視覺暗示、座標系、標尺、背景資訊

流程圖a)     分類

資料是直接的,每個分類都有乙個值。可以使用條形圖和符號圖,特點對比

圖表型別

優勢

劣勢

條形圖

長度作視覺暗示,分類間的差異明顯

每個矩形都要從零座標開始

只能橫向或向上徑直延伸

符號圖

面積做視覺暗示,難以區分細微差別

可以在二維空間以任何方式組織圖形

便於展示差異數量級較大的資料

b)     整體中的部分

餅圖:角度做視覺暗示,總和為100%,不適用於分類較多的情況

堆疊條形圖:通常用於顯示投票結果,也可用於原始計數

c)     子分類

用於有層次的資料

樹圖:緊湊的空間顯示層次結構,通常面積和顏色結合使用

馬賽克圖:允許在乙個檢視中進行跨分模擬較

d)     看清資料的結構和模式

回歸到資料:分類資料可以很直觀的看到資料集的範圍、分布情況、再看結構和模式,如果一些分類有著同樣或差異很大的值,要分析原因

a)     週期

條形圖:對離散的時間點很有用,關注數值,更容易區分變化

折線圖:通過方向這一視覺暗示更注重變化趨勢的體現

散點圖:重點在數值上,趨勢不是那麼明顯,尤其在資料量小的時候,可以用線連線起來顯示趨勢(散點圖可以使用loess擬合曲線)

點線圖:相對條形圖,更聚焦於端點

徑向分布圖:與折線圖類似,但是圍成一圈

日曆:對於星期週期模式比其他圖看起來更方便

b)     迴圈

存在資料迴圈重複的情況下,比較每個週期同一天的資料就有意義了。

折線圖:可以把日子按迴圈週期分成段,用多條重疊的折線比較迴圈情況

星狀圖:也可使用星狀圖圓周表示時間迴圈,多條層疊的折線圈表現迴圈情況

日曆熱區圖:便於從所有角度觀察資料,容易找到數值對應的日期,但顏色作為視覺暗示難以區分較小的資料差異

c)     尋找變化的意義

回歸到資料:時序資料注重隨時間推移發生的變化,比發現變化更重要的是發現變化背後的意義。

注:loess曲線法擬合曲線,可用於散點擬合為類似正太分布

a)     位置

位置圖:只關心單個位置的資料資訊,可以在地圖上畫點,氣泡大小表示數值

聯絡圖:表現不同地點之間的關係

b)     區域

等值區域圖:在空間背景資訊中視覺化區域資料,使用顏色作為視覺暗示,不同區域根據資料填充顏色

等高線圖:線條表明地理分布資料的連續性,使用了密度

c)     統計地圖

圓形統計圖:整個地區依據資料用形狀表示大小,而不考慮改地區實際大小,地理學的面積和邊界將完全不存在

基於擴散的統計圖:保留地理學區域邊界,但將邊界延長,使區域面積與資料對等

d)     統計圖的優缺點

統計圖:延長了區域邊界,使區域的邊界與數值保持一致,但缺點是地理精度不夠

e)     尋找區域模式

回歸到資料:了解資料範圍,然後尋找資料的區域模式,結合區域隱含的資訊分析資料在不同區域的表現

a)     少數變數

三個變數:引入新的視覺暗示,面積或顏色,表示第三個變數

四個變數:同時引入面積和顏色,表示不同的變數,但已經不易理解

b)     許多變數

熱區圖:**布局,所有行表示同一變數的不同取值,每列代表各不相同的變數,顏色代表數值

平行座標圖:每個縱座標代表乙個變數,取值最小值在底端,最大值在頂端,根據每個變數的位置從左向右畫線。如果所有變數正相關則所有線都是筆直的;如果兩個變數負相關則乙個變數的頂端與另乙個變數的底端相連

星狀圖:更關注個體多變數取值的情況,可使用一組星狀圖,每個星狀圖表示乙個個體

c)     多視角的使用

什麼是多視角:多元變數的情況也可以在不同維度上繪製很多同類圖表,可以從不同的角度檢視資料,效果更好。

d)     尋找資料間的關係

尋找資料間關係時,可以把所有資料同時視覺化,也可以從更簡單直觀的視角出發。兩個變數的關係簡單易懂,變數數量增多關係變得複雜。

研究時不要進行假設,記住資料中沒有包含的變數可能帶來變化

中位數:(中間的線)代表中位數

下四分位數:表示有1/4的數值低於該數值

上四分位數:表示有1/4的數值高於該數值。

四分位間距:上四分位數和下四分位數之間的範圍被稱為四分位間距

邊界:上/下限邊界分別有下四分位數減去/加上3/2個四分位間距來確定

異常值:如果最大值和最小值都在上下限內,那麼繪製邊界線只是為了確定範圍。否則,所有上下限外的點都會被視為異常值

a)     不只是尋找平均數和中位數

視覺化工具探索資料分布時要分析峰值、谷值、資料範圍以及資料的分布情況。不只是平均數和中位數。原始資料的詩句分析和概要統計間的變化也更有價值。

建立視覺層次

增強圖表可讀性

高亮顯示重點內容

註解視覺化表達了什麼

從不同角度做一些計算

視覺化的常見錯誤

讀者不同,資料展示也不同

需要注意的事項

視覺化步驟整合

讀書筆記 數學之美 筆記

隨便總結的,書都看了,總要留下點印記不是本質就是乙個編譯碼和傳輸的過程 自然語言處理在過去的30年發生了巨大的變化 構建兩個詞表,乙個是基本詞表,乙個是複合詞表,再根據兩個詞表分表建立兩個語言模型 模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進...

讀書筆記 數學之美

1.通訊模型 2.翻譯可行的條件 不同文字在記錄資訊的能力上是等價的,文字只是資訊載體,而非資訊本身。3.資訊的冗餘 是資訊保安的保障。語言的材料 語料 尤其是多語言的對照語料是機器翻譯的基礎。4.資訊的編碼,信源編碼 為了減少信源輸出符號串行中的剩餘度 提高符號的平均資訊量,對信源輸出的符號串行所...

讀書筆記 《數學之美》 隱馬爾可夫模型

數學之美 第二版 第五章 1 通訊模型 上圖表示了乙個典型的通訊系統,它包括雅各布森 roman jakobson 提出的通訊的六個要素 傳送者 資訊源 通道,接收者,資訊,上下文和編碼 其中,s1,s2,s 3,表示資訊源發出的訊號。o1 o2,o3,是接受器接收到的訊號。通訊中的解碼就是根究接收...