(二)資料視覺化

2021-09-07 14:49:59 字數 3249 閱讀 4875

通過建立和解讀直方圖、柱狀圖和頻數圖,學習資料視覺化基礎知識。

優達學城學員背景廣泛,如果我們想知道都有哪些人,參加了這些課程,該怎麼辦?現在看看樣本量為50 的一組資料

大家花4秒鐘的時間看看這個**,並告訴我這個樣本中的大多數學生都來自哪個國家
大多數學員都來自中國,但是只花 4 秒鐘的時間來觀察這一**可能很難看出,你可能掃了一眼**,發現上面寫了好多「中國」,因此能夠感覺到哪個國家出現的概率最高,你的大腦可以自動這麼思考,但是對於統計學,我們需要用簡單的方式規範化這一流程,如果你這次沒有猜對也沒事,這個小測驗的最終目標就是向你展示 有了**也是很難快速得出結論的,有什麼更好的方法呢?

我們可以建立乙個頻次表,即數出每個國家出現的頻次,我的做法是逐個計數

最終結果應該是這樣的 注意它們的總和應該是50,即樣本的總觀察次數,通過頻次表我們可以輕鬆地看出大多數學生來自中國。

我們不僅要研究絕對數值,還要看看這些數字之間的相互關係,換句話說,我們可能想要知道來自每個國家的學員所佔的比例,了解有多少學員來自每個國家構成乙個整體,這就叫做相對頻率。

例如 這個樣本的 50 名學員中有2名來自加拿大2/50 = 0.04,0.04 就是來自加拿大的學員所佔的比例
通過相對頻率,還可以看出在整體中所佔的比例,如果我們包含了吉爾吉斯斯坦,吉爾吉斯斯坦的比例就是 0,因為這 50 名學員中沒有一位來自吉爾吉斯斯坦,如果不看國家而是看星球,會發現所有學員都來自地球,因此地球的比例是 1,也就是說 50 名學員都來自地球,50/50=1。

所有比例都始終在 0 到 1 之間或等於 0 或 等於1。

對於任何頻率表來說,相對頻率(用比例表示)相加等於1。這表示表示我們考慮了所有情況。

現在我們來分析下這個頻率表,來自美國的學員所佔的比例是多少?來自印度的學員所佔的比例呢?對於歐洲和亞洲 哪個地區的學員更多?

從表中可以看出 有 0.2 的學員來自美國,有 0.16

的學員來自印度。

從表中可以看出所有歐洲國家是英國、德國和瑞典;所有亞洲國家是中國、印度、日本和巴基斯坦。

歐洲學員的總比例是0.

04+0.06+0.02=0.12

亞洲學員的總比例是0.

24+0.16+0.16+0.02=0.58

看來亞洲學員的比例更高

百分比的範圍是從 0% 到 100% 就像比例是從 0 到 1 一樣。同樣的 所有百分比之和應該等於 100%。

這裡有好多的資料,我們可以通過只看各個洲的資料來簡化流程。

現在資料更加簡化了,雖然這個**很有意思,給我們提供了新的資訊,但是只通過這個**我們並不知道有多少學員來自各個國家,建立這個**後給我們帶來了便利,因為我們需要檢視的類別變少了,在這種情況下是 3 個類別,但在過程中也丟失了一些資訊 即關於特定國家的資訊,在建立頻率分布表時 有時候簡便性和資訊性之間存在利弊關係,但是不能說哪種方法就是正確的資料呈現方式,完全取決於你要回答哪種問題。

在這種情況下,如果你想知道有多少學員來自北美,這麼整理資料就是最佳方法

但是如果你想知道有多少學員來自印度或其他特定國家,則這麼整理資料就是最佳方法,關鍵在於根據你要回答的問題知道如何整理資料。

之前我們分析學員都來自哪個國家,現在我們來分析下他們的年齡,這是乙個學員年齡樣本,同樣是 50 個人

如何像分析國家資料一樣分析這一資料?頻率資料中不再是國家而是年齡,如何建立這個**?需要多少行?需要 50 行 每行表示一名學員?或者 66 行,每行表示乙個年齡 從 10 歲到 75 歲?8 到 10 行,因為最容易理解?取決於你對資料進行分組的方式?或者 2 行 一行表示 50 歲以上的人數,一行表示 50 歲以下的人數?

我們可以隨便分組這一資料,實際上,我們可以只要兩行,一行表示小於 50 歲的學員人數,一行表示大於 50 歲的人數,但是我們不需要這麼分組,甚至可以每個年齡一行,所以可以是 10、11、12 歲,然後數數有多少學員年齡是 10 歲,有多少是 11 歲,但這不是最簡便的方式,因為可能所有年齡的出現頻率是 1 次,少數幾個是 2 次,那麼為每行選擇乙個範圍呢?例如 0 到 19 歲,20 到 39 歲,然後數數有多少學員是在 0 到 19 歲,20 到 39 歲等等,這就叫做區間或容器或桶,大多數情況下 我們將稱之為區間或容器,在這種情況下容器大小是 20,因為它包括 0。
view code

我們來建立乙個組距是 20 的頻率圖表

給出一組混亂無章的資料,我們可以通過頻率表輕鬆地對資料視覺化,在這種情況下 我們劃分了四個容器,容器大小是 20,我們可以計算落入每個區間的學員數量,現在我們進一步介紹對這一資料進行視覺化的方法。

現在請你繪製乙個圖表,這時 x 軸 表示年齡,y 軸 表示頻率,你需要針對這組數繪製乙個柱狀圖 並顯示每個柱的高度應該是多少

剛剛建立了乙個組距為 20 的直方圖,其實我們可以建立任何組距大小的直方圖,組距大小也稱為區間大小。組距越來越大的情形,可以看到現在每個區間內的觀察值越來越多,如果我們不斷讓組距越來越大,最終會很難看清直方圖的形狀,因為組距太大了。最終每個分組裡會有太多的資料,直方圖的形狀甚至都無法識別了。

組距是指對頻率進行計數的區間

(二)資料視覺化

通過建立和解讀直方圖 柱狀圖和頻數圖,學習資料視覺化基礎知識。優達學城學員背景廣泛,如果我們想知道都有哪些人,參加了這些課程,該怎麼辦?現在看看樣本量為50 的一組資料 大家花4秒鐘的時間看看這個 並告訴我這個樣本中的大多數學生都來自哪個國家大多數學員都來自中國,但是只花 4 秒鐘的時間來觀察這一 ...

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

資料視覺化

資料視覺化主要旨在借助於圖形化手段,清晰有效地傳達與溝通資訊。但是,這並不就意味著資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的 資料集...