資料工作的科普總結 財哥原創

2021-08-03 09:46:18 字數 767 閱讀 5096

首先說,這是一篇關於資料工作的科普文字,是我從事資料工作三年的乙個小總結,因為不時會有人諮詢我一些小問題,於是我大致整理了一下,主要是說了資料工作到底都包含了什麼,其中關於資料倉儲的我沒有涉及,這裡不會多講,還得用教主的csdn名聲幫轉。

資料分析,這是個見仁見智的過程,一方面要有處理資料的**工程能力,另一方面又要有統計基礎,比如能挖掘出什麼變數有很強的特性(百分比、熵、分布規律等)

1.sql:這個sql可能就不同於傳統的sql了。因為從上一步資料獲取得到的資料,很多可能是不規則的,比如它可能是乙個json串,這種情況傳統sql處理不了,mongodb或者一些非關係型資料庫就派上用場了,但是nosql的語法跟傳統sql會有很大差異。

2.python:pandas跟dataframe是python處理資料的兩個好工具

3.r4.excel

思想上的東西:做演算法除了了解相關演算法,還要有很大的腦洞,以及很多演算法之間的融合,比如gbdt跟邏輯回歸的融合,或者其他一些ensemble方法

資料接入

實際工程中,資料接入到專案裡,基本就是實時接入跟離線接入兩條路線,

實時接入:(flume/binlog)-(kafka/metaq)-(storm/kafkastream)-(redis/hbase),括號裡都是同乙個東西,斜線表示或

離線接入:我們主要用的是把hive資料寫入到redis

封裝服務

bottle/django,這是兩個python的web框架,前者比後者輕量

為什麼要封裝服務,因為訓練好的乙個演算法要實時向外提供資料服務啊

電信資料遷移的工作分析與總結

背景 2月份的一天電信系統突然夯死,業務應用緩慢無比,經過分析發現一張大表 業務明細表 order detail l 的執行計畫變更了,本來應該走索引的,結果變更為全表掃瞄,該錶有 5億條記錄,全表掃瞄絕對是個噩夢。分析原因發現統計資訊採集率不夠,資料庫的自動採集功能已經開啟,但是預設的採集率是 5...

工作總結 基於R的資料分析

終於有那麼一丟丟時間,可以來把關於r語言程式設計的工作梳理一下。總體來說,工作內容主要是將公司已有的excel模板的資料分析內容轉為r語言形式,目前寫了四個產品的資料清洗和分析 在這中間,學習到了很多新知識。對接下來,程式設計之路的走向有了初步的規劃。對資料分析這塊也增加了認識吧。關於新知識 1 較...

原創 測試工作中,常用的批量構造測試資料的方法

在日常測試工作中,經常需要在短時間內構造大量的測試資料,這些測試資料,有的需要通過資料庫sql生成,有的需要人力點選業務系統生成,有的需要構造特定大小的檔案,等等 一 資料庫層面,之前看到過一本書 收穫,不只是oracle 書中大量的資料採用指數級插入重複資料來構造,例如 建立表 create ta...