統計學學習第一周

2021-09-29 06:25:06 字數 2830 閱讀 7343

一、統計學學習

一般的我們在分析前都會對資料質量做些簡單衡量,以能夠確保我們分析結果的有效性。這時我們可以用數理統計知識來衡量我們資料的質量,利用均值、方差、標準差、協方差等衡量資料的集中、離散,更甚者衡量元素之間的相關性。

比如說,一年一度都會發布一項我們比較關注的資料,某某行業的平均工資,這時我們就會說:不好意思我們又拉了後腿。其實這裡的平均工資,對我們這樣的人來說是被平均了。如果你懂得一些資料分析的基本方法,又或者你知道或者讀過一些分析方面的文章,這時你就可以這樣說這也沒什麼大不了,畢竟平均又不能代表我。這時你可以看中位數,或者眾數,來衡量乙個平均的水平。記得之前看過一篇文章寫得是美國軟體從業人員的工資,當然這裡具體資料不可考證了,他們年薪據平均是200w美元(縐乙個),那很多人的工資是不是離這個數很近嗎,不一定。據說站在頂端的認識年薪是接近幾千萬美元,那人數最多的人工資是多少那,這個可以用眾數來標示。同時如果按照工資從低到高排個序那,站在中間的那個人工資又是多少那,再者工資排名後在中間的這部分人又是個什麼範圍,這時我們可以用1/4 ,3/4位置的工資來衡量。其實在平均面前,就是類似箱型這樣中位數、1/4,3/4位數的值或者這兩個值之間的數值其實更有代表性。因此不要被「平均」所**。

資料質量分析後便是資料的預處理。資料的預處理,是資料分析的前站,解決了分析的前站最後一公里問題,我們才能獲得有效的分析結果。一般資料預處理包含對資料的去偽存真,篩選、排序、去重、去異常等等。

針對不同資料採取審視的角度不同,如調查獲取的資料,應主要從完整性和準確性考慮;從其他渠道獲取的二手資料,可能需要我們審視資料的適用性和實效性(統計學摘抄)。

在獲取資料後,我們要能夠發現錯誤並予以糾正,無法糾正的可能就需要篩選掉。篩選包含異常資料的丟棄,也包含發現有價值資料的選擇。

有時我們需要對資料按照幾個維度進行排序,以發現有用的價值資料,為資料檢查糾錯等提供方便。(統計學)找到最大和最小值後,我們可以獲得極差,也就是最大值減去最小值。

在資料經過預處理後,可以進一步進行分類或者分組。分類,可以接著用頻數、頻率等,或者用條形圖等展示。同時針對順序資料,還可以使用累計頻數、累計頻率進行描述,視覺化手段可以用累計頻數分布圖、環形圖等展示。

同時針對數值型資料的分組,又可以分為單變數分組和組據分組,像1-12月的資料展示,或者說1-100分,每10分分為一檔,組的寬度就是10.這裡數值型資料可以用直方圖、折線圖、曲線圖。針對未分組的資料,可以用莖葉圖、箱線圖表示。莖葉圖可以用籃球隊員得分例子作為樣例學習,莖和葉都表示數值,常可以看出分布是否對稱,資料是否集中,是否有離群點。一般高位數做莖,樹葉只保留該數值的最後乙個數字。

針對時間序列資料,可以繪製線圖,主要表示發展變化的規律和趨勢。

當多變數資料表示可以用雷達圖radar chart.其實用來展示資料變化或者規律的圖形有很多種,大家可以參考echarts,其上面繪製了豐富的圖示,可供參考。其實相比較圖示來講,更重要的是展示出資料的價值。

方差:各個資料與平均數之差的平方的平均數,variance,衡量隨機變數和其數學期望之間的偏離程度

標準差:

方差的開根號

協方差:

在概率論和統計學中,協方差用於衡量兩個變數的總體誤差,而方差是協方差的一種特殊情況。兩個變數在變化過程中是否同向變化,還是反向變化,程度如何,可以用協方差來表示

歐幾里得距離:

相同單位指標的各維度特定距離計算,但在一些受主觀影響很大的評分資料時,效果不太明顯

皮爾遜相關係數:

用協方差除以兩個變數的標準差得到。協方差反應兩個隨機變數的相關程度,大於0正相關,小於0負相關,但數值上受到量綱的影響,因此不能簡單從協方差的數值大小給出變數相關程度的判斷

余弦相似度-余弦距離:

用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量

1.定量資料的分布分析,求極差、組距、組數、分點、列出頻率分布表、繪製頻率分布直方圖。

2.定性資料的分布分析,定性的資料常常使用變數來分組,然後使用餅圖、柱狀圖等來展示。

3.對比分析 兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件規模的大小,水平的高低,速度的快慢等,可用

(1)絕對數比較

(2)相對數比較

4.統計量分析:

集中趨勢:均值、中位數、眾數

離中趨勢度量:極差、標準差、變異係數、四分位數間距

5.週期性分析

6.貢獻度分析 (類似帕累託分析 20/80法則)

7.相關性分析

散點圖(兩個變數是否具有線性相關關係)、散點圖矩陣(多個相關關係間多個顯示,在多元線性回歸時很重要)

相關係數(二元變數的相關分析過程pearson相關係數、spearman秩相關係數和判定係數)

箱型圖

真實展示資料分析本來面貌,在識別異常值有奇效。

下界下四分位-中位數上四分位_上界

上圖中均值為為16.08,標準差為30.74,最小值為1, 25%處為1.8, 50%處為4.175, 75%處為18.55,max值為196.79,要是這個數值為年薪的話,我們能夠看到均值與中位數或者最大值有不小的差距,其實實際可能差距更大。因此我們要懂點分析的知識。

上圖為一小區開盤某一棟樓的房價走向,橫軸代表樓層,縱座標軸代表每平公尺單價,可以看出其價效比較高的樓層的位置。

第一周學習

msg dic for k,v in msg dic.items print f 商品名稱 商品 end while true shoppingcar input 請輸入你要購買的商品 strip if shoppingcar not in msg dic or shoppingcar is non...

第一周學習

1.根目錄,位於目錄的最頂端,是所有檔案和目錄的父目錄,其自身沒有父目錄。2.boot 引導檔案存放目錄,核心檔案 vmlinuz 引導載入器 bootloader,grub 都存放於此目錄。3.bin 存放使用者基本命令,不能關聯至獨立分割槽,os啟動就會用到的程式。4.sbin 存放管理類基本命...

第一周學習總結

第一周,我們有學習,計算機的發展,起源,計算機的各種進化,還有計算機的概念,計算機的語言,計算機的組成這些等等。讓我深刻的意識到這是很龐大的一門課程,同時也對我們接下來要學習的課程充滿了期待。對於我自己來說,第一周的學習我還是覺得挺不錯的,挺開心的,能認識到這麼多的朋友,這麼多的知識,讓我對計算機有...