摘要: 本文給出了資料科學應用中的十項統計學習知識點,相信會對資料科學家有一定的幫助。
無論你是不是一名資料科學家,都不能忽視資料的重要性。資料科學家的職責就是分析、組織並利用這些資料。隨著機器學習技術的廣泛應用,深度學習吸引著大量的研究人員和工程師,資料科學家也將繼續站在技術革命的浪潮之巔。
雖然程式設計能力對於資料科學家而言非常重要,但是資料科學家不
完全是軟體工程師,
他應該是程式設計、統計和批判性思維三者的結合體。而許多軟體工程師通過機器學習框架轉型為資料科學家時,沒有深刻地思考並理解這些框架背後的統計理論,所以
統計學習理論
成為了機器學習的理論框架。
為什麼學習統計學習?理解不同技術背後的想法是非常重要的,只有真正理解了這些才能知道何時何地使用這些技術。首先必須理解簡單的方法,以便掌握更複雜的方法。精確評估乙個方法的效能,並且知道它工作情況的好壞顯得非常重要。此外,這是乙個令人興奮的研究領域,在科學、工業和金融等方面具有重要的應用。最後,統計學習是培養現代資料科學家的乙個基本素材。統計學習問題的例子包括以下幾個部分:
此外,作者對資料探勘進行了一定的研究,推薦 intro to statistical learning (hastie, tibshirani, witten, james)、doing
bayesian data analysis (kruschke)和 time series analysis and
ffer)三本書,這裡面有許多有價值的內容。在進入正題之前,想區分一下機器學習和統計學習,主要有以下幾點區別:
下面分享
10項統計技術,任何資料科學家都應該學習,使得能夠更高效地處理大資料集。
1.線性回歸
在統計學中,線性回歸是一種通過擬合因變數和自變數之間的最佳線性關係來**目標變數的方法。線性回歸主要分為簡單線性回歸和多元線性回歸。簡單線性回歸使用乙個自變數,通過擬合乙個最佳線性關係來**因變數;而多元線性回歸使用乙個以上的自變數來**因變數。
2.分類
分類是一種資料探勘技術,被用來將乙個整體資料集分成幾個類別,以為了更準確的**和分析。分類技術中典型的代表是邏輯回歸分析和判別分析。邏輯回歸是一種**分析,在用於描述資料時,解釋乙個二進位制因變數與乙個或多個序數、區間等變數之間的關係。邏輯回歸可以檢驗的問題型別有:
在判別分析中,在每個響應類中分別對**因子x的分布進行建模,然後利用貝葉斯定理將這些變數翻轉到給定x值的響應類別的概率估計中。這樣的模型可以是線性的也可以是二次型的。
3.重取樣方法
重取樣是從原始資料樣本中反覆抽樣的方法,是一種非引數統計推斷方法。重取樣在實際資料的基礎上生成唯一的抽樣分布,下面介紹兩種最常用的重取樣方法拔靴法(bootstrap)和交叉驗證(cross-validation):
4.子集選擇
這種方法確定了我們認為與反應有關的p**因子的乙個子集,然後使用子集特徵的最小二乘擬合模型。
5.特徵縮減技術
通過對損失函式加入正則項,使得訓練求解引數過程中將影響較小的特徵的係數衰減到0,只保留重要的特徵。最常用的兩種方法分別是嶺回歸(ridge regression)和lasso:
6.降維
降維是將估計p+1個係數減少為m+1個係數,其中m
7.非線性模型
在統計學中,非線性回歸是回歸分析的一種形式,在這種分析中,觀測資料是通過模型引數和因變數的非線性組合函式建模,資料用逐次逼近法進行擬合。下面是幾個處理非線性模型的重要技術: 8.
樹形方法
樹形方法可以用於回歸和分類問題,這些涉及將**空間分層或分段為一些簡單的區域。由於分割**空間的**規則可以用樹形總結,所以這類方法也被稱為決策樹方法。以下方法是將多個樹合併,然後得到乙個單一的一致性**: 9.
支援向量機
支援向量機(svm)是一種分類技術,簡單地說,就是尋找乙個超平面能最好地將兩類點與最大邊界區分開。本質上來說,它是乙個有約束的優化問題,其中邊界最大化受到資料點分布的約束。圖中的資料點「支援」著超平面,超平面的兩端上的訓練樣本就是支援向量。如果兩類資料線性不可分時,可以將其投影到高維特徵空間,使其線性可分。
10.無監督學習
上述內容只討論了有監督學習技術,而這類技術運用的前提是需要有類別資訊。而無監督學習就是在無類別資訊情況下,尋找到好的特徵。
常用的無監督學習演算法有:
洞察背後的理論知識,能夠便於今後的實際操作,希望這份基礎資料科學統計指南能幫助到你。
資料科學家需要掌握的10項統計技術,快來測一測吧
摘要 本文給出了資料科學應用中的十項統計學習知識點,相信會對資料科學家有一定的幫助。無論你是不是一名資料科學家,都不能忽視資料的重要性。資料科學家的職責就是分析 組織並利用這些資料。隨著機器學習技術的廣泛應用,深度學習吸引著大量的研究人員和工程師,資料科學家也將繼續站在技術革命的浪潮之巔。雖然程式設...
資料科學家需要掌握的10項統計技術,快來測一測吧
無論你是不是一名資料科學家,都不能忽視資料的重要性。資料科學家的職責就是分析 組織並利用這些資料。隨著機器學習技術的廣泛應用,深度學習吸引著大量的研究人員和工程師,資料科學家也將繼續站在技術革命的浪潮之巔。雖然程式設計能力對於資料科學家而言非常重要,但是資料科學家不 完全是軟體工程師,他應該是程式設...
資料科學家的15項原則
作為乙個資料科學家,我為我的日常工作總結開發出15項原則,這些是我本人也遵循的 1 不要用資料說謊或吹牛 對經驗性證據要誠實坦率。最重要的是不要用資料自欺欺人。2 建立永久工具並分享給他人 花費一些日常工作時間去建立一些能使自己和他人生活變得輕鬆的工具 譯者補充 我為人人,人人為我 我們可是該死的人...