統計學到底給我什麼

2021-10-08 13:43:57 字數 3718 閱讀 1132

2018/11/04

長久以來,總是自己相信也好,別人告訴也好,就說統計學非常有用。

可是自己也是看了統計學的書,當然,有很大原因是自己看書不夠專注,導致最後的結果就是看了這麼久,一直看不出什麼效果。就是那種,感覺他很有用,但是又用不出來的感覺。

但是最近又有這種感覺,可能他就是這個原因呢,就是不能給我多好的實踐出來的感覺。(說這句話,讓我感覺,就是還是因為沒有實踐的機會)

舉乙個比較恰當的例子,資料視覺化。

這個東西的內容,要遠比統計學少的多,但我依然覺得這個東西很有用, 但每次學發現,就是那些基礎的東西,每次看別人說都是那些東西。看來,我這個學習的過程是不對的,我一直都弄錯了。這個東西我得好好研究一下。

這次趁這個機會,我把剛剛看的這本書的內容給梳理一下,同時也思考一下,統計學到底能給我什麼。看的這本書的名字叫《mind on statistics》,按照該書的目錄進行梳理,過程中注重這部分內容對我後續機器學習過程的可能影響。

1、簡介

2、轉化資料為資訊

這部分屬於機器學習中的預處理部分,將原始資料轉化為相應的特徵向量,根據自己對各個資料意義的真實理解,進行相應的轉換。

書中對這部分內容的劃分主要有以下幾個部分:資料型別,如何簡單的作圖來說明變數之間的關係,如何處理異常點(這個內容是我原來一直沒有做過的,但也是當時聽過的),**資料分布。

注意,日常生活中很多資料的分布都是正態分佈,我沒有真實做過,我不敢妄下判斷。我覺得,正態分佈的假設,應該能給出很大的資訊量,估計最有效的,就是那種,兩個正態分佈的圖。

3、取樣:如何做調查和問問題

該部分的內容集中在如何取樣上,以及取樣之後,對樣本與總體之間的關係的一些統計資料。

相對應於機器學習部分,交叉驗證可能是最好的說明部分,雖然有些資料會利用置信度什麼的,但大多數情況下,機器學習都沒有利用這部分資訊,可能是因為最終之後,總歸要用全部資料來做乙個樣本訓練。

但我也想起來乙個可用的地方。那就是大資料情況下,該怎麼取樣。原來的時候一直關注乙個問題,就是如何得到有代表性的資料,取樣時候才用的策略,估計也應該是乙個考慮的因素。從另乙個角度來講,我如果獲得了不具有代表性的,我怎麼檢測出來。

4、從資料關聯性中獲取有用資訊

這一章著眼於如何主觀的設計實驗來達到關聯性檢測的要求。對其內容就先不看了,因為後面的內容才是我真正想要的。

(這部分一直以來,最直觀的認識,就是乙個正相關負相關,即使是看別人的部落格,看別人的各種問答,都沒辦法得到多少有用的資訊,我不知道這個東西是不是可以深入,我特別想從這個點入手,來達到一定的掌握度。特別是機器學習過程中,我想知道每個輸入變數與輸出變數之間的這個具體關係,另一方面,就是我想知道這個東西我能獲取到什麼樣的知識。)

5、數量型變數之間的關係

這一章值得重點關注。按照目錄的說法,有以下幾點:從散點圖中獲取模式、公尺利用回歸線來描述線性模式、測量關聯的強度和方向。最後乙個部分說,關聯不代表著是產生的因素。

對於回歸類的研究而言,數量型的關聯研究基本是必做的,我感覺也沒什麼好說的,因為本身你就是要從乙個公式推導的角度入手(當然不是絕對的)。所以針對這種更久不必多說。相應的,如果我想知道兩個輸入變數之間的關聯是不是也能這麼做,這就對後期機器學習過程中的特徵工程的意義很重大。

6、分型別變數之間的關係

針對這種變數,好像整體的策略都變得不一樣了。目錄:展示分型別變數之間的關係、風險,相對風險(這個是什麼玩意??),6.3 the effect of a third variable and simpson』s paradox,最後乙個不知道是什麼。

在機器學習的分類學習中,這種分析更有意義,一般情況下,分類的結果是類別,而不是數值。那麼針對輸入變數同樣為分類變數,這樣分析可以達到同數量型變數一樣的效果。

這裡產生乙個問題:我怎麼樣去描述數量型變數和分型別變數的關係呢。這是個問題。

7-8 概率與隨機變數

這兩章基本就很熟悉了,不過第7章中幾個條目吸引了我:找到概率的幾個原則、找到複雜概率的策略、利用**來模擬概率(這個,有點意思哦,如果我事先並不知道概率是是什麼樣的, 我怎麼去**???還是我理解錯了???)

這裡就不仔細贅述了。

這部分也是我認為的統計學真正的內容,就是利用樣本來推到整體上的資料分布。但是感覺這部分的內容好像還是有點不太理解。雖然,他前面提到了做調查的時候一些內容,用以獲取代表性的資料。

而10-11的內容集中在估計一些引數上,這些也時當時關注過的。

對這部分內容,我還真想不起來好的關聯點把他和機器學習的部分結合起來。可能最好的辦法,就是最開始進行資料分析的部分把。

12-13 假設檢驗

同樣是當時上課時候的內容,但是仔細想想,我好像一點也不記得了。。。

14、關於簡單回歸的一些推導

15、對於分型別變數的推導

16、方差分析

這個點,因為前幾天我也一直關注方差的一些作用,就比如協方差這些東西。不知道這一張能不能給我帶來什麼幫助。

17章就不說了,從這個目錄上來看,基本上的內容跟我在實驗室看到的這個數理統計的書的內容一樣。另外,從開始進行推導的部分開始,基本上就對我來說,都是陌生的,都是目前來講,以我對機器學習的理解,沒什麼作用的。

但是我覺得如果我為了發現這些關聯去學,就有點失去了真正的意義,所以,我還是學習機器學習,然後得到一定的理解之後,再來看。

你看,這個標題,可能我給出的答案就是,統計學,可能真的給不了我什麼。

話肯定不要說絕,自然是期待能得到很多應用的內容。

2018/11/22

學習的過程中,發現學習的內容都比較散,沒有將很多東西關聯起來。可能這就是自學的乙個弊端吧,特別是統計學這個東西,我基本都是想起來乙個東西就學一下,沒有乙個系統性,雖然這個post就是為了想串一下。

2018/11/24

關於真正的這個統計學的思維,我還是沒太弄明白什麼樣子。特別是,因為目前機器學習的東西,一直沒有和統計學結合起來。

或者說,就是往好了說,我已經學會了這個東西,但就是沒有把這個東西真正的利用起來???

按照我現在的想法,統計學的思維應該是一種處理資料的思維,從資料中得到知識(說的好像是資料探勘),最簡單的例子就是利用資料做決策,但是資料大小的制約,需要我們採用一些手段來完成通過小樣本窺探整個資料的效果。還有另外乙個方面,就是變數的關係分析。

2018/11/24

今天看了乙個書的部分章節(統計思維),只能說,看完之後,腦子裡就是一頓漿糊,這個寫的就是太脫離實際了。也有可能,是我自身的理解能力不夠,所以看不太懂。

語言太過抽象了,看起來就比較吃力。

針對統計思維的問題,有乙個概念叫做不確定性,而統計從資料中獲取知識的過程就是乙個消除或者盡可能減少不確定性的過程。日常生活中的各種問題,都存在著不確定性, 通過減少這個東西, 來掌握事物內在的規律,幫助理解問題,幫助做決策。

留學到底為什麼

1996年,我從北京大學畢業後便來到了美國,先上學後工作,物質生活似乎是越來越好。但想想自己,看看別人,悵然若失的感覺卻有增無減。每個人都抱著自己的夢想和追求來到美國,但很快就需要在理想和現實之間重新做出決擇。為了畢業後能夠找到工作,也就是為了能夠繼續留在美國,不得不轉學中國人擅長且美國社會大量需要...

大學到底教會了我們什麼?

從去年到今年,我參與招聘的時間比較多,瀏覽簡歷兩千多個,面試一百餘人,但最終符合招聘需求的同學真的寥寥無幾,當然這種符合是雙向的,大部分情況下面試者不符合我們需求,我們不適合面試者的情況也有。我有非常多的感悟,分享給大家。應屆生就業有如下新的變化 1 城市選擇 北上廣深的吸引力不再那麼強烈,二線城市...

CMM到底給我們帶來了什麼?

最近我們部門在努力通過cmm3中,經過一段時間的培訓和實做。發現了一些比較令人困惑的地方,記錄下 來可以 一下。cmm的目標是提高組織的成熟度,利用軟體開發過程通過固化甚至嚴格量化的過程來提高整個組織的成熟 度進而達到較高的專案成功率和客戶滿意度。嗯,通過最初的培訓,經歷了以前開發過程比較混亂,存在...