一 資料模型共六層:(bi指345層)
6boss決策
5資料展現層
4資料探勘,和傳統統計分析不一樣,統計分析的目標很清楚手段也很明確,但是資料探勘目標手段都不明確,能挖出什麼來也不確定,資料探勘和資料分析界限不是很分明,統稱為分析層
3統計分析、查詢,觀察資料狀態,如通過平均值、方差、count()、排序等。
2資料倉儲層儲存層,存放準備用來進行資料分析的資料,資料倉儲產品需要支援:oltp(聯機事務處理)指零散的在資料庫中進行查詢等,要求olap(聯機分析處理)值對大量資料進行計算,通過結果對經營支援。資料集市指小型的資料倉儲給部門用的,從源資料中把要用的拿出來供自己使用。
1最底層是資料來源,運營商為通話等記錄資料,生產線上的源資料,底層生產資料維護的崗位就是dba。資料來源要經過etl(抽取、粗加工預統計、裝載)扔到資料倉儲中。
二 常用的統計指標
1 集中趨勢指標:(1)均值
(2)中位數 比他大的有50%樣本,比他小的有50%樣本
(3)眾數 出現頻率最高的數
2 變異性指標 (1)極差 極大值減去極小值
(2)方差 每個樣本減去均值後的差,算平方,將所有的平方加起來除以n-1,方差刻畫了資料的分散程度,值越大,說明越分散
方差為0,說明資料是同乙個常數
(3)標準差 也是用來分析資料分散程度的,但是計算方法有些不同
3 變異性指標 (1)偏度 是不是符合正太分布,描述駝峰是正的還是偏的
(2)峰度
R與資料分析
r的基本賦值操作 x c 1 100 把1.100個整數向量賦值到x sample x,20 從100個數中隨機不放回地抽取20個值作為樣本 x 1 10 提取1 10號數字 y c 1,3,7,3,4,2 x y 以y為下標的z的元素值 xz setdiff x,z 找出兩個變數中的差異變數 so...
資料分析與挖掘
學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...
資料分析與挖掘
1 概述 1.1 使用者研究縱覽 使用者研究可以從定性分析和定量分析兩個不同的維度展開 定性分析是從小規模的資料樣本中發現新事物的方法,主要應用於使用者體驗調查 定量分析是用大資料量的樣本來測試和證明某些事情的方法,主要應用於使用者行為資料分析。1.2 資料分析與挖掘流程規範 資料分析與挖掘型系統建...