博主在一開始學習資料科學時,沒有人帶路,沒有一條直接的路徑。因此各種資訊都接收,一開始比較混亂,後來接觸的多了,漸漸開始了解到關於資料科學無非分為數學中的統計學、計算機中的 python 和機器學習演算法、專案中對業務的理解三大塊。在學習方法和知識獲取上也多走了彎路,浪費了很多時間,現在將它們進行一遍梳理,多為根據自己的理解進行輸出與再學習,如果對想探索資料科學的你有一點用,還文末的贊與收藏,給個鼓勵。
資料科學系統學習這個專題將從這三方面進行整理,下面進入正文。
資料分析首先是基於某個行業的,然後在這個基礎上有一定目的性的去採集、處理、分析並解釋資料,最後得出有一定價值資訊的過程。
其中,行業需求最大的是金融/電商行業,對資料進行處理就需要用到統計方法,最後通過提取有價值的資訊來改變業務決策,提高利潤指標。
總的來說,用資料科學的知識來完成乙個專案,需要進行資料分析
和資料探勘
兩步。
資料分析和資料探勘的區別總結如下:
統計方法的分析方法分為:描述性統計方法,回歸分析,對應分析,因子分析,方差分析等。 資料探勘的分析方法分為:聚類分析,分類分析,關聯規則,回歸分析等。
描述性分析就是從總體資料中提煉變數的主要資訊,即統計量
。這類分析只要明確分析的主題和可能的影響因素,確定可量化主題和影響因素的指標,根據這些指標的度量型別
選擇適用的統計表和圖進行資訊呈現。
由於統計推斷的演算法是根據分析變數的度量型別定製開發的,這就需要分析人員對各類指標的分布型別有所認識,合理選擇演算法。而深度學習演算法是通用的,可以在乙個框架下完成所有任務。在資料科學體系中,統計推斷的演算法往往是資料探勘演算法的基礎,比如特徵工程中大量使用統計推斷演算法進行特徵創造與特徵提取。
統計推斷與建模方法如下表:
資料探勘的方法分為描述性
與**性
兩種。它們都是基於歷史資料進行分析,不同的是,**性模型從歷史資料中找出規律,並用於**未來;描述性模型用於直觀地反映歷史狀況,為後續的分析提供思路。
描述性資料探勘也被稱為模式識別,建模資料一般都具有多個屬性或變數,屬性用於描述各個觀測的特徵。用於描述現有的規律,常見的演算法如下:
**性資料分析的資料有明確的**變數與相應的因變數,用於**未來將發生什麼,使用的模型演算法有以下幾種:
不足之處,歡迎指正。
資料科學系統學習 資料科學在做什麼 專題概述
博主在一開始學習資料科學時,沒有人帶路,沒有一條直接的路徑。因此各種資訊都接收,一開始比較混亂,後來接觸的多了,漸漸開始了解到關於資料科學無非分為數學中的統計學 計算機中的 python 和機器學習演算法 專案中對業務的理解三大塊。在學習方法和知識獲取上也多走了彎路,浪費了很多時間,現在將它們進行一...
科學組合,系統學習
近期在我的 10多個讀者服務 qq群中,發現問同樣乙個問題的人越來越多了,那就是問該如何恰當地根據自己當前水平選擇我的書來學習。為此在這裡為大家列出我近期的主要圖書,並且以流程圖的方式向大家給出了我為大家根據不同讀者層次所安排的圖書組合方案。因為我儘管寫了許多書,但是都不是同層次的重複,而且一直在力...
科學組合,系統學習
近期在我的 10多個讀者服務 qq群中,發現問同樣乙個問題的人越來越多了,那就是問該如何恰當地根據自己當前水平選擇我的書來學習。為此在這裡為大家列出我近期的主要圖書,並且以流程圖的方式向大家給出了我為大家根據不同讀者層次所安排的圖書組合方案。因為我儘管寫了許多書,但是都不是同層次的重複,而且一直在力...