資料分析的真正價值在於發現問題,解決問題,創造價值。使用什麼軟體、工具並不是重要。現在市面上的出現的好多機構,解決的更多的是入門使用工具的問題,演變成手段問題。
資料分析是把現實的問題轉化為資料能夠解決的問題,使用我們學習到的知識和經驗,將資料提煉出來的資訊應用,創造價值的過程。
分為三部:
從問題到資料,資料到資訊,資訊到行動。
問題到資料:[5-15%]
資料到資訊
資料準備[10-15%]模型應用[10-15%]
(準確定義實際問題,評估當前狀況,確定資料探勘目標,制定專案計畫)
誰是你的客戶? 你知道你的客戶嘛,你要怎麼與他們交流?
你能把問題具體化嘛?
理解你的客戶的問題
問題1:如何提高產品銷售量?
問題2:今年年初推出的新**手段是不是提高了先鋒先玉696玉公尺種子在西南地區的銷售量?
問題3:
某服裝公司:要通過精準營銷提高效率?
明確問題為:感興趣為不同品牌應該鎖定什麼樣的客戶?
哪些品牌?:各個品牌描述都是什麼樣的?**,質量,風格等
使用者調查的偏好資料
資料準備(收集資料,描述資料,初步探索變數關係),資料處理(資料清理,資料變換,變數選擇),建模和模型評估
資料清洗的不同階段:
分別儲存每一步得到的資料
建模的目的:解釋和推斷 vs **
中心化和標量化
查詢離群點:
視覺化檢視
z分值確定離群點
zi=yi−y¯/s
iglewicz和hoaglin提出使用修正後的z分值來判斷離群點:
mi=0.6745(yi−y¯)/mad
其中mad是一系列|yi−y¯|的中位數,稱為絕對離差中位數。他們建議將上面修正後的z分值大於3.5的點標記為可能的離群點。
計算自變數的相關係數矩陣
找出相關係數絕對值最大的那對自變數(記為自變數a和b)
計算a和其他自變數相關係數的均值。對b也做同樣的計算
如果a的平均相關係數更大,則將a移除;如若不然,移除b
重複步驟2到4,直至所有相關係數的絕對值都低於設定的閾值
取值較少,數值取值相同,資訊量較少
對回歸模型有影響,對樹模型黑箱模型影響較少:過度擬合和可解釋性差
通常識別這樣的變數有兩個法則:
###新增啞變數、互動作用
什麼是名義變數?
nnet包中的class.ind()函式
caret包中的dummyvars() 函式
新增互動效應
資料預處理流程:
檢查資料:變數分布,是不是存在錯誤的觀測
缺失值填補:了解缺失原因,選擇填補方式
資料變換:取決於需要建立的模型,對不符合正態分佈假設,變數尺度差異大,有離群值的資料進行變換
檢查共線性:找到高度線性相關的變數,決定刪除變數,還是使用pca,cfa這類非監督方法得到不相關的變數線性組合
稀疏變數:查詢並且刪除稀疏變數
編碼名義變數:對於不能作用於分類變數的模型,將分類變數轉化成0/1名義變數
caret: 提供獲取、使用、評估成百上千個機器學習模型及其擬合效果的系統互動介面,為機器學習提供了結構化的方法並且對一系列機器學習過程進行評估
e1071: 各類計量經濟和機器學習的延伸;我們通過*****bayes()函式進行樸素貝葉斯判別
gridextra: 繪圖輔助功能,講不同的圖形組合在一起成為圖表
lattice: 建立在核心繪圖能力上的格仔框架圖形
imputemissings: 填補缺失值
rann: 應用k鄰近演算法
corrplot: 相關矩陣的高階視覺化
nnet: 擬合單個潛層級的神經網路模型
car: 回歸模型解釋和視覺化工具,其它附加功能; 其中包括some()和scatterplotmatrix()函式
gpairs: 廣義散點圖;對混合類別和連續變數產生散點圖矩陣
reshape2: 靈活重構和整合資料,主要有兩個函式melt()和dcast()
psych: 心理計量學方法和抽樣調查分析,尤其是因子分析和專案反應模型;
plyr: 可以將資料分割成更小的資料,然後對分割後的資料進行些操作,最後把操作的結果彙總
資料分析的一般流程和方法
賣家資料顯示 胸最大的是新疆妹子,國內內衣消費最多的size是b 其中75b銷量最好,佔比41.45 其次是a,佔比 25.26 各種顏色中,黑色最為暢銷,因為百搭。這些早已應用在內衣生產 備貨 銷售等關鍵環節。網易雲 資料顯示 90後使用者佔比高達59 其次是80後 12 除了流行歌曲,使用者最喜...
大資料的一般分析流程
大資料分析流程 1 業務理解 判斷分析需求是否可以轉換成資料分析專案 2 資料獲取 抽取的資料必須能夠正確反映業務需求 3 資料清洗 補充部分資料缺失的屬性值 統一資料格式 編碼和質量 檢測和刪除異常資料 4 資料管理 對資料進行分類 編碼 儲存 索引和查詢 經歷了檔案管理 資料庫 資料倉儲 大資料...
Python做資料分析,一般的流程是怎麼樣的?
程式設計新視野 作者 python是一門動態的 物件導向的指令碼語言,同時也是一門簡約,通俗易懂的程式語言。python入門簡單,可讀性強,一段好的python 閱讀起來像是在讀一篇外語文章。python這種特性稱為 偽 它可以使你只關心完成什麼樣的工作任務,而不是糾結於python的語法。另外,p...