資料工作的科普總結財哥原創

首先說，這是一篇關於資料工作的科普文字，是我從事資料工作三年的乙個小總結，因為不時會有人諮詢我一些小問題，於是我大致整理了一下，主要是說了資料工作到底都包含了什麼，其中關於資料倉儲的我沒有涉及，這裡不會多講，還得用教主的csdn名聲幫轉。

資料分析，這是個見仁見智的過程，一方面要有處理資料的**工程能力，另一方面又要有統計基礎，比如能挖掘出什麼變數有很強的特性（百分比、熵、分布規律等）

1.sql：這個sql可能就不同於傳統的sql了。因為從上一步資料獲取得到的資料，很多可能是不規則的，比如它可能是乙個json串，這種情況傳統sql處理不了，mongodb或者一些非關係型資料庫就派上用場了，但是nosql的語法跟傳統sql會有很大差異。

2.python：pandas跟dataframe是python處理資料的兩個好工具

3.r4.excel

思想上的東西：做演算法除了了解相關演算法，還要有很大的腦洞，以及很多演算法之間的融合，比如gbdt跟邏輯回歸的融合，或者其他一些ensemble方法

資料接入

實際工程中，資料接入到專案裡，基本就是實時接入跟離線接入兩條路線，

實時接入：（flume/binlog）-（kafka/metaq）-（storm/kafkastream）-（redis/hbase），括號裡都是同乙個東西，斜線表示或

離線接入：我們主要用的是把hive資料寫入到redis

封裝服務

bottle/django，這是兩個python的web框架，前者比後者輕量

為什麼要封裝服務，因為訓練好的乙個演算法要實時向外提供資料服務啊

資料工作的科普總結 財哥原創