視覺暗示、座標系、標尺、背景資訊
流程圖a) 分類
資料是直接的,每個分類都有乙個值。可以使用條形圖和符號圖,特點對比
圖表型別
優勢
劣勢
條形圖
長度作視覺暗示,分類間的差異明顯
每個矩形都要從零座標開始
只能橫向或向上徑直延伸
符號圖
面積做視覺暗示,難以區分細微差別
可以在二維空間以任何方式組織圖形
便於展示差異數量級較大的資料
b) 整體中的部分
餅圖:角度做視覺暗示,總和為100%,不適用於分類較多的情況
堆疊條形圖:通常用於顯示投票結果,也可用於原始計數
c) 子分類
用於有層次的資料
樹圖:緊湊的空間顯示層次結構,通常面積和顏色結合使用
馬賽克圖:允許在乙個檢視中進行跨分模擬較
d) 看清資料的結構和模式
回歸到資料:分類資料可以很直觀的看到資料集的範圍、分布情況、再看結構和模式,如果一些分類有著同樣或差異很大的值,要分析原因
a) 週期
條形圖:對離散的時間點很有用,關注數值,更容易區分變化
折線圖:通過方向這一視覺暗示更注重變化趨勢的體現
散點圖:重點在數值上,趨勢不是那麼明顯,尤其在資料量小的時候,可以用線連線起來顯示趨勢(散點圖可以使用loess擬合曲線)
點線圖:相對條形圖,更聚焦於端點
徑向分布圖:與折線圖類似,但是圍成一圈
日曆:對於星期週期模式比其他圖看起來更方便
b) 迴圈
存在資料迴圈重複的情況下,比較每個週期同一天的資料就有意義了。
折線圖:可以把日子按迴圈週期分成段,用多條重疊的折線比較迴圈情況
星狀圖:也可使用星狀圖圓周表示時間迴圈,多條層疊的折線圈表現迴圈情況
日曆熱區圖:便於從所有角度觀察資料,容易找到數值對應的日期,但顏色作為視覺暗示難以區分較小的資料差異
c) 尋找變化的意義
回歸到資料:時序資料注重隨時間推移發生的變化,比發現變化更重要的是發現變化背後的意義。
注:loess曲線法擬合曲線,可用於散點擬合為類似正太分布
a) 位置
位置圖:只關心單個位置的資料資訊,可以在地圖上畫點,氣泡大小表示數值
聯絡圖:表現不同地點之間的關係
b) 區域
等值區域圖:在空間背景資訊中視覺化區域資料,使用顏色作為視覺暗示,不同區域根據資料填充顏色
等高線圖:線條表明地理分布資料的連續性,使用了密度
c) 統計地圖
圓形統計圖:整個地區依據資料用形狀表示大小,而不考慮改地區實際大小,地理學的面積和邊界將完全不存在
基於擴散的統計圖:保留地理學區域邊界,但將邊界延長,使區域面積與資料對等
d) 統計圖的優缺點
統計圖:延長了區域邊界,使區域的邊界與數值保持一致,但缺點是地理精度不夠
e) 尋找區域模式
回歸到資料:了解資料範圍,然後尋找資料的區域模式,結合區域隱含的資訊分析資料在不同區域的表現
a) 少數變數
三個變數:引入新的視覺暗示,面積或顏色,表示第三個變數
四個變數:同時引入面積和顏色,表示不同的變數,但已經不易理解
b) 許多變數
熱區圖:**布局,所有行表示同一變數的不同取值,每列代表各不相同的變數,顏色代表數值
平行座標圖:每個縱座標代表乙個變數,取值最小值在底端,最大值在頂端,根據每個變數的位置從左向右畫線。如果所有變數正相關則所有線都是筆直的;如果兩個變數負相關則乙個變數的頂端與另乙個變數的底端相連
星狀圖:更關注個體多變數取值的情況,可使用一組星狀圖,每個星狀圖表示乙個個體
c) 多視角的使用
什麼是多視角:多元變數的情況也可以在不同維度上繪製很多同類圖表,可以從不同的角度檢視資料,效果更好。
d) 尋找資料間的關係
尋找資料間關係時,可以把所有資料同時視覺化,也可以從更簡單直觀的視角出發。兩個變數的關係簡單易懂,變數數量增多關係變得複雜。
研究時不要進行假設,記住資料中沒有包含的變數可能帶來變化
中位數:(中間的線)代表中位數
下四分位數:表示有1/4的數值低於該數值
上四分位數:表示有1/4的數值高於該數值。
四分位間距:上四分位數和下四分位數之間的範圍被稱為四分位間距
邊界:上/下限邊界分別有下四分位數減去/加上3/2個四分位間距來確定
異常值:如果最大值和最小值都在上下限內,那麼繪製邊界線只是為了確定範圍。否則,所有上下限外的點都會被視為異常值
a) 不只是尋找平均數和中位數
視覺化工具探索資料分布時要分析峰值、谷值、資料範圍以及資料的分布情況。不只是平均數和中位數。原始資料的詩句分析和概要統計間的變化也更有價值。
建立視覺層次
增強圖表可讀性
高亮顯示重點內容
註解視覺化表達了什麼
從不同角度做一些計算
視覺化的常見錯誤
讀者不同,資料展示也不同
需要注意的事項
視覺化步驟整合
讀書筆記 數學之美 筆記
隨便總結的,書都看了,總要留下點印記不是本質就是乙個編譯碼和傳輸的過程 自然語言處理在過去的30年發生了巨大的變化 構建兩個詞表,乙個是基本詞表,乙個是複合詞表,再根據兩個詞表分表建立兩個語言模型 模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進...
讀書筆記 數學之美
1.通訊模型 2.翻譯可行的條件 不同文字在記錄資訊的能力上是等價的,文字只是資訊載體,而非資訊本身。3.資訊的冗餘 是資訊保安的保障。語言的材料 語料 尤其是多語言的對照語料是機器翻譯的基礎。4.資訊的編碼,信源編碼 為了減少信源輸出符號串行中的剩餘度 提高符號的平均資訊量,對信源輸出的符號串行所...
讀書筆記 《數學之美》 隱馬爾可夫模型
數學之美 第二版 第五章 1 通訊模型 上圖表示了乙個典型的通訊系統,它包括雅各布森 roman jakobson 提出的通訊的六個要素 傳送者 資訊源 通道,接收者,資訊,上下文和編碼 其中,s1,s2,s 3,表示資訊源發出的訊號。o1 o2,o3,是接受器接收到的訊號。通訊中的解碼就是根究接收...