今天媳婦問我乙個問題:「大資料可以統計到媳婦的喜好嗎?」
正確的標準答案是:利用大資料技術統計媳婦的喜好是乙個相當不靠譜的事情,因為程式設計師再牛、使用再炫酷的技術去統計媳婦的喜好,都不如離開電腦陪媳婦聊會天、一起做個飯、拉拉家常、用心去感受媳婦的喜怒哀樂,給予所需。
既然非得要去使用技術手段得出點結論,那麼就立項做個規劃吧。
統計喜好這個工作大體分為以下幾個步驟:
1、資料採集
2、資料儲存
3、資料分類建模
4、資料分析、統計、**
5、結果展示
接下來分步詳細介紹各個階段的過程和使用到的技術棧:
1、資料採集
想用大資料來進行分析,首先得有大資料,要將相關的資料全部採集集中起來進行統一管理,再進行分析。
主要用到的技術是爬蟲技術,可以使用python的scrapy包進行資料爬取。
2、資料儲存
資料可以儲存在關係型資料庫mysql、mssql,甚至文字檔案中,如果要使用大資料技術,可以使用hadoop,將資料儲存在hadoop的hdfs上。
3、資料分類建模
上一步中將採集的資料放入hdfs上儲存了,但是因為資料**不同,格式散亂,也只是各自代表了不同的方面的含義,需要將資料進行整合,形成資訊全面、格式統一,量綱統一的資料,這就需要對資料進行分類建模,建立一系列的資料模型,能夠對資料進行有效管理。資料建模非常重要,這決定了是否可以在後續過程中進行有效的資料分析。
資料模型確定好後,在資料進入模型前,需要對資料進行清洗,去除無用資料,整理資料格式。
資料模型建立和資料清洗可以使用hive、mapreduce技術,最終形成一系列的規整的hive表。
4、資料分析、統計、**
現在規整的有效資料有了,下一步就要對資料進行挖掘,提取出有效資訊、從資料中找出規律、得出結論並且還可以根據現有資料對以後發生的事情進行**。
這一階段可以是分為兩類技術:使用hive sql、spark等技術可以進行資料匯**計,得出已有資料的資訊價值;另一類技術就是使用傳統機器學習、深度學習的技術進行**,機器學習可以使用python機器學習庫sklearn、spark mllib機器學習庫、深度學習庫tensorflow等。
5、結果展示
資料分析的結果,最終應該展示出來,使得更加直觀。
資料分析的結果可以儲存到mysql等關聯式資料庫中,也可以儲存在hbase、elasticsearch工具中,他們的共同特點是可以快速讀取。
可以使用python ui或者web ui將結果進行展示,常用的web ui控制項有**、柱狀圖、餅圖、折線圖等圖表。
以上內容純屬瞎扯,希望大家多多交流!
資料探勘和大資料 OLAP 資料統計的區別
我們在大資料的領域中總是聽說過資料探勘 olap 資料統計等等的專業詞彙。這些詞彙如果從字面意義上講,我們很難區分,今天在這篇文章中我們給大家來好好介紹一下資料探勘與大資料 olap 資料統計的區別。首先我們給大家說一下資料分析,資料分析是乙個大的概念,理論上任何對資料進行計算 處理從而得出一些有意...
做大資料分析的怎麼可以不會這個?
0 引言 1 環境 2 模組準備 3 實現思路 4 小試牛刀 5 中試牛刀 6 總結 作業系統 windows python版本 3.7.2 本文涉及到的python第三方模組,共計四個 分詞模組jieba,文字雲模組wordcloud,畫圖模組matplotlib,用來處理背景的模組scipy。這...
資料庫大資料統計的設計方案
需要對乙個大資料量 數量級在億級別 的表,進行資料統計。我想到要對資料庫表進行水平切分。為了後面方便描述,我先假設表裡有三個字段,乙個是使用者的id,乙個是交易的金額,乙個是交易的時間。但問題是,比如我的統計要求是 要根據指定使用者id,以及一定交易時間區間 比如當前時間之前1個月內 使用者金額的彙...