隨著網際網路的日益繁榮以及人工智慧的不斷火熱,我們會產生大量的資料,這些資料背後隱藏著大量的有用、核心的資訊。比如說通過蒐集**、京東、天貓等購物資料,可以大概了解使用者喜歡購買哪些商品,從而構建知識圖譜,然後通過系統推薦演算法給使用者推薦一些商品,從而促進消費。因此,資料分析也越來越有地位,當然資料分析也是推薦中的其中一環。
前面提到過,資料分析的型別,不過我們大概介紹一下這幾種資料分析:
探索性資料分析:是指為了形成值得假設的檢驗而對資料進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基(john tukey)命名。
定性資料分析:這種資料分析方法又稱為「定性資料分析」、「定性研究」或者「質性研究資料分析」,是指對諸如詞語、**、觀察結果之類的非數值型資料(或者說資料)的分析。
離線資料分析:離線資料分析用於較複雜和耗時的資料分析和處理,一般通常構建在雲計算平台之上,如開源的hdfs檔案系統和mapreduce運算框架。hadoop機群包含數百台乃至數千台伺服器,儲存了數pb乃至數十pb的資料,每天執行著成千上萬的離線資料分析作業,每個作業處理幾百mb到幾百tb甚至更多的資料,執行時間為幾分鐘、幾小時、幾天甚至更長。
資料分析的方法主要包括列表法和作圖法。
列表法是將資料按一定規律用列表方式表達出來,是記錄和處理最常用的方法。**的設計要求對應關係清楚,簡單明瞭,有利於發現相關量之間的相關關係;此外還要求在標題欄中註明各個量的名稱、符號、數量級和單位等:根據需要還可以列出除原始資料以外的計算欄目和統計欄目等。
作圖法可以最醒目地表達各個物理量間的變化關係。從圖線上可以簡便求出實驗需要的某些結果,還可以把某些複雜的函式關係,通過一定的變換用圖形表示出來。當然,圖表和圖形的生成方式主要有兩種:手動製表和用程式自動生成,其中用程式製表是通過相應的軟體,例如spss、excel、matlab等。將調查的資料輸入程式中,通過對這些軟體進行操作,得出最後結果,結果可以用圖表或者圖形的方式表現出來。圖形和圖表可以直接反映出調研結果,這樣大大節省了設計師的時間,幫助設計者們更好地分析和**市場所需要的產品,為進一步的設計做鋪墊。同時這些分析形式也運用在產品銷售統計中,這樣可以直觀地給出最近的產品銷售情況,並可以及時地分析和**未來的市場銷售情況等。所以資料分析法在工業設計中運用非常廣泛,而且是極為重要的。
我們前面也提到資料分析的概念、型別以及常用的一些方法,那麼接下來,我們為什麼要學習資料分析這門技術呢?
在日常工作中,我們總會遇到一些問題,包括如下:
資料分析主要學的內容有:資料思維、業務知識、excel、資料視覺化、sql、統計學、python(這裡我們用的是python3)。其實真正決定資料分析師上限的是其思維能力以及業務水平,而這幾種工具只是簡單的應用方式而已。資料採集簡稱埋點,收集使用者在網頁端、產品端、客戶端等終端的資料,也包括第三方外部資料。這裡需要注意的是:這裡的原始資料是由使用者行為產生的。
將收集的資料轉換成可理解、可量化、可觀察的業務指標。單純的資料就是一堆孤立的數字,沒有任何的意義,只有和我們的日常業務聯絡起來才會發揮更大的價值。這一過程就是從原始資料到加工資料的過程。
當從資料中獲得了洞察,就需要把洞察轉換成策略。這也就是包含了分析的過程,執行既包括策略的指定,也包含優化和改進。這是持續的。這一過程是將視覺化資料/資訊轉化為資料決策。
這是將策略製作成資料應用和產品,當你洞察到資料中蘊含的規律。比如說什麼樣的使用者喜歡,什麼樣的商品會被購買,以及什麼樣的活動形式更好,需要我們把這些問題做成一張思維導圖或者系統。
這是我們最後一部分,也是最重要的。當我們積累了大量的資料,大量的規模,大量的資料應用時,公司級的資料體系已經具備雛形。它不只是資料分析,而是應該將資料變現。這一過程是將資料工具向資料體系以及戰略的轉變。
以下是資料分析一般的框架架構圖
工具有很多,每乙個工具都是單一的,我們應該將其進行結合,比如mysql與python結合、excel和sql結合就是乙個很好的資料分析庫。具體結合如下:
一般對於資料分析師來說,其實最重要的是:業務分析能力,由於業務是核心競爭力,它是一種結果導向型能力。接下來就是要鍛鍊我們的資料分析能力,這裡需要鍛鍊我們的資料敏銳程度、統計知識等,不過這個過程是乙個漫長的過程。最後就是工具的使用,這些工具雖然很好用,但是在職場的過程中,只是輔助我們得出結論的一種工具。因此,資料分析師最後往往是往業務或者是資料分析能力這一塊發展的。因此,我們在學習資料分析的過程中一定要注意資料分析的思維的培養以及資料的敏銳度鍛鍊而不是資料工具的使用。
資料分析 資料分析概述
了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...
資料湖概要分析
資料湖是一種不斷演進中 可擴充套件的大資料儲存 處理 分析的基礎設施 以資料為導向,實現任意 任意速度 任意規模 任意型別資料的全量獲取 全量儲存 多模式處理與全生命週期管理 並通過與各類外部異構資料來源的互動整合,支援各類企業級應用。用阿里的資料架構圖來說 簡單來說,資料湖的定義就是原始資料儲存區...
資料分析 資料分析的誤區
在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...