1. 資料工程師
職位描述:處理大量資料的公司,並管理資料通道。這意味著,當需要時,你要能確保有效地從資料來源收集和檢索資料,並進行清理和預處理。
為什麼它很重要:如果你只處理過相對小的(<5gb)儲存為.csv或.txt檔案的資料集,那麼你可能很難理解為什麼會有一些人的全職工作是構建和維護資料管道。
這裡有幾個原因:
乙個50gb的資料集對計算機的ram來說太大了,所以你通常需要其他方法將其輸入到你的模型中。
處理這麼大規模的資料需要花費大量時間,並且經常需要冗餘儲存。管理資料的儲存也需要專門的技術訣竅。
要求:你將使用的技術包括apache spark、hadoop和/或hive,以及kafka。你很可能還需要有乙個紮實的sql基礎。
你要處理的問題聽起來像:
「我如何構建乙個能夠每分鐘處理10000個請求的資料管道?」
「如何清理資料集而不用將其全部載入到ram中?」
2. 資料分析員
職位描述:將資料轉換成可指導業務發展的商業洞察力。你會是技術團隊和商業戰略、銷售或營銷團隊的橋梁。資料視覺化將成為你日常工作的重要組成部分。
為什麼它很重要:純技術人員通常很難理解為什麼資料分析員如此重要,但事實是他們就是很重要。
這些人需要將經過訓練和測試的模型和大量使用者資料轉換為讓人易於理解的形式,以便根據資料分析結論設計業務策略。資料分析員幫助確保資料科學團隊不會浪費時間在不能提供業務價值的問題上面。
要求:你將使用的技術包括python、sql、tableau和excel。你還需要成為乙個好的溝通者。
你要處理的問題聽起來像:
「什麼驅動了使用者的增長?」
「我們如何向管理層解釋,最近使用者費用的增加會減少客戶?」
3. 資料科學家
職位描述:清理和探索資料集,並做出有商業價值的**。日常工作包括訓練和優化模型,並將它們部署到生產中。
為什麼它很重要:當你有一大堆資料,以至於人類無法解析,同時這些資料也很珍貴以至於不能忽略它們時,你需要通過一些辦法從中提取一些可被接受的見解。這是資料科學家的基本工作:將資料轉換成可被理解的結論。
要求:你將使用的技術包括python、scikit-learn、pandas、sql,可能還有flask、spark和/或tensorflow/pytorch。一些資料科學職位純粹是技術性的,但是大多數職位還需要你具有商業頭腦,這樣你就不會老想著去解決沒有人需要解決的問題。
你要處理的問題聽起來像:
「我們到底有多少種不同型別的使用者?」
「我們能建立乙個模型來**哪些產品能賣給哪些使用者嗎?」
end.
大資料職業理解 大資料職業規劃總結
前言 這是我的第一篇部落格,寫起來還真是有些小緊張 還請有緣看到的朋友多指點!打算開始寫這些東西的契機是師兄給布置的學習記錄作業,而我自己這方面的原因倒主要不是記錄學習 寫這些東西好花時間呀.而是看到好多大神,尤其是國外的,都在貢獻自己的知識,我被他們的精神感染了,也想自己貢獻些東西!大資料相關工作...
大資料職業理解 大資料職業發展方向
大資料職業發展方向 說明 以下的我,不是我,是原作者。我從業的兩段經歷 我以我的兩段從業經歷來說明一下大資料的方向吧。我的前公司是一家網際網路企業,大資料部門是從0開始起步的。一開始是從0開始搭建 cdh 集群,接著採集伺服器日誌,採集關係型資料庫資料到 hadoop 上。等資料漸漸多了起來,我們開...
大資料職業理解 大資料的職業發展規劃
1.如何成為大資料工程師 由於目前大資料人才匱乏,對於公司來說,很難招聘到合適的人才 既要有高學歷,同時最好還有大規模資料處理經驗。因此很多企業會通過內部挖掘。2014年8月,阿里巴巴舉辦了乙個大資料競賽,把天貓平台上的資料拿出來,去除敏感問題後,放到雲計算平台上交予7000多支隊伍進行比賽,比賽分...