對於資料崗位的員工,網際網路公司頗有些不同的稱謂,像統計工程師、大資料工程師、資料分析師、演算法工程師、資料科學家等,每一種之間的技能差距簡直是風馬牛不相及。但我覺得,資料崗位的需求千變萬化,真正能通過資料解決問題的人,不僅要通曉兩到三種崗位的技能,而且要深刻理解資料方**,能將資料玩弄於鼓掌之中,這種人我稱之為資料極客
。好比武俠**中的絕頂高手,殺人已不需要用劍,劍意就能殺人於無形。資料極客都需要具備哪些能力?懂資料的人會怎麼去思考和解決問題?我想舉我自身遇到的4個小例子來說明。
在大部分人的常識裡,資料是客觀存在的,既不會遞增,也不會消減。所有當他們繪製報表、展開分析、構建模型時,很容易遭遇的瓶頸是沒有資料
,俗話說,巧婦難為無公尺之炊。真實的狀況卻是:資料是無窮無盡的,哪怕有時我們與資料之間的距離很遠,就像遠在天邊的繁星,「手可摘星辰」只是乙個傳說,但經過大氣層的折射我們卻能時刻感受到它們的光輝。不僅光會折射,資料同樣也會折射。舉乙個小例子:
實習生q跑來問我:「boss趕著要大廳發言的資料去對付投資人,但是後台礙於發言的資料量級太大,一直都沒有儲存,無論資料庫還是日誌系統都沒有記錄。」這就是乙個資料有無到有被創造出來的例子。雖然原始資料沒有儲存,但是資料極客的任務就是通過其他可能被獲取的資料逼近原始資料,從而還原乙個較為真實的狀況。如果沒有資料能夠成為乙個罷工的藉口,那麼我相信恐怕90%的資料極客都得失業了。但反過來,如果不是對業務對資料的採集都瞭如指掌,同樣沒辦法快速實現這種變資料的戲法。我想了一下,問:「客戶端進入大廳頁面的事件一直都有監控,可以用那個資料替代嗎?」
「但是這個資料並不精確,因為進入大廳的並不完全轉化為發言。」
「是的,雖然不十分精確,但可以暫時用這個資料近似。然後,好友新增的資料一定程度也能反映大廳發言的熱度,因為之前的統計顯示,70%的好友關係產生來自於大廳。哦,對了,你有沒有關注大廳介面的傳送按鈕的事件統計?這會是乙個更為精確的替代資料。」
20世紀初,畢卡索興起了立體主義的繪畫潮流,追求以許多組合的碎片形態去描寫物件物,並將其置於同乙個畫面之中,物體的各個角度交錯疊放創造出了乙個多維的迷人空間。這和理想的資料展示多麼相似:客觀存在的問題經過多維度的資料解讀,被展現在乙個二維的平面上,讓讀者即便只站在乙個角度,也能看到這個問題在所有角度上的表現。再舉乙個小例子(是的,這個例子完全與資料崗位無關,是乙個來自客戶端工程師的困擾):
「效能優化的指標是怎麼統計的?」
「這個指標似乎不那麼全面,如果乙個使用者等待的時間過長,他有可能提前關閉頁面,是否有統計過關閉頁面的資料?還有,看過這個時間差的分布狀況麼?如果效能優化有針對一些特殊的客戶端(比如型號、cpu、記憶體),有沒有看過特殊客戶端下的指標有沒有提公升?」
我默想w的下次匯報一定會大肆耀武揚威一番,嘿嘿。
這就是資料的魔力所在。通過層層剖析,始終能找到與問題相關的有區分度的資料,再通過資料的變化去定位到問題的發生原因或者發展趨勢,給出不容置疑的結論。所以,在解決任何問題之前(也不限於資料崗位),你都必須先構建起一套立體化的資料監控體系,來強有力的印證你的方案是有效的。
無論是做推薦系統、精準營銷還是反欺詐,都會遇到乙個現實的問題:如何檢測乙個模型的實際效果?在觀察指標之餘,抽取一小部分的標記使用者,觀察他們的行為模式,人為去驗證這個模型的準確率,是乙個必要的環節。但是抽樣如果用得氾濫了,就不是補藥而是毒藥了。再舉個小例子:
g是團隊的新人,有陣子我看他沒日沒夜的加班,忍不住過問了幾句,看是不是最近業務上碰到了什麼瓶頸。一問下來有點啼笑皆非:原來g正在負責乙個反欺詐模型的建設,需要一些黑標籤,他從所有使用者中抽取了好幾個特徵使用者群,然後從每個使用者群中再抽樣一批使用者,通過日誌觀察是否有欺詐行為,這麼一來就耗掉了兩天的時間。抽樣是一種從區域性看整體的方法,在抽樣之上,你還要有對整體的把控。比如像g的做法就不符合資料極客的行為指南,既然可以通過日誌觀察到使用者的行為特徵,你就應該先把這種行為特徵轉化為可用的統計指標(比如識別欺詐,完全可以用收益相關的指標),再計算這幾個使用者群的均值特徵,這樣對比下來一目了然,而且省時省力。
感謝谷歌創造了這個時代最廉價的資料核**
- hadoop(當然,如果spark的bug再少一些,我會考慮把amplab放到谷歌的前面),資料的規模對大部分企業而言已經是乙個無需顧慮的問題。但是資料極客不會滿足於會用工具的層次,理解工具的原理,靈活的使用工具,使工具變得更加順手,才能真正達到「善」用工具的境界。再舉乙個小例子:
z博士剛畢業不久,一腔熱血要把高大上的機器學習演算法用到我們的推薦系統上,但是第一次的運算結果居然要8個小時才能跑完,遠遠達不到產品團隊的更新要求。於是老大鼓動我去協助z提公升整個環節的效率,我們一起在白板上梳理了整個計算的流程,我發現有好幾處都是浪費資源降低效率的做法:原始資料由單機做一次處理再上傳到hadoop、多個mapreduce其實可以合併為乙個、甚至hadoop的引數也可以根據機器的效能稍做調整:加大節點數、加大map和reduce環節的可用記憶體、新增壓縮以減少節點間傳輸的時間。稍作改造,運算時間便只剩下了原來的四分之一。說到這裡,你也許會覺得資料極客也沒什麼巧妙,他們的方**,和一切工作的方**沒什麼不同,都會要多用腦子、多用工具、多種角度看待問題。既然如此,我可要恭喜你,你已經完全懂得了資料的妙用,而我一直以為,懂點資料,會對人的工作和生活大有助益。
如何成為一名資料科學家
在回答這個問題之前,希望你先想想另外乙個問題 為什麼要成為資料科學家?當然,如果你是為了10萬美元的年薪也無可厚非,但是我衷心希望你能將這個職業和自己的價值感掛鉤。因為成為資料科學家的路途會很辛苦,但如果你將其看成是實現個人價值的一種方式,那麼追尋目標才能帶來長久的成就感,在這個過程中會感到快樂並且...
如何成為一名資料科學家
作者簡介 在回答這個問題之前,希望你先想想另外乙個問題 為什麼要成為資料科學家?當然,如果你是為了10萬美元的年薪也無可厚非,但是我衷心希望你能將這個職業和自己的價值感掛鉤。因為成為資料科學家的路途會很辛苦,但如果你將其看成是實現個人價值的一種方式,那麼追尋目標才能帶來長久的成就感,在這個過程中會感...
如何成為一名資料分析師
資料分析師是資料師datician det n 的一種,指的是不同行業中,專門從事行業資料蒐集 整理 分析,並依據資料做出行業研究 評估和 的專業人員。有人經過調研,資料分析師職位普遍集中在北上廣深城市,待遇也比相同層次的人員高出20 30個百分點,由此可見,資料分析師已經越來越被企業重要。乙個企業...