說到資料分析,啤酒和尿布的例子大家應該都聽膩了。再具體、深入一些的內容,往往因為數學就令很多人望而卻步了。給大家分享9個不帶數學推導的資料分析思路,希望大家能喜歡~
1.分類
分類分析的目標是:給一批人(或者物)分成幾個類別,或者**他們屬於每個類別的概率大小。
舉個栗子:「京東的使用者中,有哪些會在618中下單?」這就是個典型的二分類問題:買or不買。
分類分析(根據歷史資訊)會產出乙個模型,來**乙個新的人(或物)會屬於哪個類別,或者屬於某個類別的概率。結果會有兩種形式:
形式1:京東的所有使用者中分為兩類,要麼會買,要麼不會買。
形式2:每個使用者有乙個「會買」,或者「不會買」的概率(顯然這兩個是等效的)。「會買」的概率越大,我們認為這個使用者越有可能下單。
如果為形式2畫一道線,比如0.5,大於0.5是買,小於0.5是不買,形式2就轉變成形式1了。
2.回歸
回歸任務的目標是:給每個人(或物)根據一些屬性變數來產出乙個數字(來衡量他的好壞)。
舉個栗子:每個使用者在618會為京東下單多少錢的?
注意回歸和分類的區別在:分類產出的結果是 固定的幾個選項之一 ,而 回歸的結果是連續的數字,可能的取值是無限多的 。
3.聚類
聚類任務的目標是:給定一批人(或物),在不指定目標的前提下,看看哪些人(或物)之間更接近。
注意聚類和上面的分類和回歸的本質區別:分類和回歸都會有乙個給定的目標(是否下單,貸款是否違約,房屋**等等),聚類是沒有給定目標的。
舉個栗子:給定一批使用者的購買記錄,有沒有可能分成幾種型別?(零食狂魔,電子愛好者,美妝達人……)
4.相似匹配
相似匹配任務的目標是:根據已知資料,判斷哪些人(或物)跟特定的乙個(一批)人(或物)更相似。
舉個栗子:已知一批在去年雙十一下單超過10000元的使用者,哪些使用者跟他們比較相似?
5.頻繁集發現
頻繁集發現的目標是:找出經常共同出現的人(或物)。這就是大名鼎鼎的「啤酒和尿布」的例子了。這個例子太容易擴充套件,就不再舉栗子啦。
6.統計(屬性、行為、狀態)描述
統計描述任務的目標是最好理解的:具有哪些屬性的人(或物)在什麼狀態下做什麼什麼事情。
舉個栗子:5月份乙個月內每個使用者在京東7天內無條件退貨的次數
統計描述常常使用者欺詐檢測,試想乙個使用者乙個月退貨100+次,這會是一種什麼情況?
7.連線**
連線**的目標是:**本應該有聯絡(暫時還沒有)的人(或物)。
舉個栗子:你可能認識***?你可能想看***?
8.資料壓縮
資料壓縮的目的是:減少資料集規模,增加資訊密度。
舉個栗子:豆瓣想分析使用者關於國外電影的喜好,講國內電影的評分資料都排除掉
大資料,也不是資料越多越好,資料多帶來的資訊多,但是雜訊也會變多。
9.因果分析
顧名思義,因果分析的目標是:找出事物間相互影響的關係。
舉個栗子:廣告的效果提公升的原因是廣告內容好?還是投放到了更精準的使用者?
這裡最常見的手段就是a/b test啦
資料分析是非常強大的,不過當然還是要在具體的情景下,嚴格的選擇假設,採用科學的分析方法才能產出有價值的結果。資料會說謊的經典案例就是「安慰劑效應」了。
每乙個IT技術人員都應該掌握的30種技能
譯言 http www.yeeyan.com articles view zhaorui 8959 無論你從事何種具體的技術工作,如何才能成為更好的it 從業人員?最近,我在msn上看到一篇名為 每乙個男人都應該掌握 的75種技能 的文章,其中有一部分是我所擅長的,當然還有一些是我不具備的技能。比如...
大資料開發常見的9種資料分析手段
資料分析是從資料中提取有價值資訊的過程,過程中需要對資料進行各種處理和歸類,只有掌握了正確的資料分類方法和資料處理模式,才能起到事半功倍的效果,以下是資料分析員必備的9種資料分析思維模式 1 分類 分類是一種基本的資料分析方式,資料根據其特點,可將資料物件劃分為不同的部分和型別,再進一步分析,能夠進...
資料分析師常用的十種資料分析思路
隨著網際網路的發展 業務邏輯越來越複雜,資料的分析也就變的越來越重要。對資料的分析可有效避免邏輯的混亂,防止在繁雜的業務理解上邏輯不清 判斷錯誤。下面就給大家分享資料分析師常用的十種資料分析思路。道家曾強調四個字,叫 道 法 術 器 層次分別為 器 是指物品或工具,在資料分析領域指的就是資料分析的產...