大資料到底是什麼?
它是為了解決海量資料的儲存和計算所出現的技術,包括結構化和非結構化資料
以及,儲存資料的成本。
只會搭搭集群,寫寫map-reduce不是我們的核心競爭力所在,即使現在靠這個能混口飯吃,但是能夠想象到,這種型別的人才是可以批量生產的!
因為這並不算是什麼核心技術,只要你不傻,借助網上的資料,幾個月的時間你就可以成為一名「大資料工程師」。
但是你的會東西別人也會,那麼你的價值體現在**?
大資料的核心價值在於資料探勘和機器學習等領域,這是能夠改變人類生活的技術
無非就是幹四件事情
聚類、分類、**、回歸
(1)將海量資料標準化
(2)選擇演算法模型進行訓練分析,此過程中要注意過度擬合、擬合不足和維度危機等。
(3)構建使用者畫像,根據維度給使用者貼標籤等
(4)進行精準營銷,準確**和推薦
大資料工程師價值所在於能夠平衡,平衡什麼呢?
速度和精度
在速度和精度之間做出的衡量,這才是懂大資料人才的value所在
那麼問題來了:
速度和精度無非兩個方面
要麼演算法,要麼底層構架
通過優化演算法(優化模型,訓練最優解,盡可能地減少迭代次數)
和優化系統的底層構架(i/o開銷、網路開銷、序列化和壓縮等)
任何乙個方面都是值得專研整個職業生涯的,渾渾噩噩地寫**,不知道知道為誰而寫,寫了是幹嘛用的,不知道自己寫的**背後發生了什麼,為什麼要這樣寫,這並不是正真的程式設計師,在我的眼中程式設計師是能夠創造世界的一群人。
僅作為和前輩交流的一點心得體會所記下。
另外收穫了一些關於創業的感悟
關於大資料的那些事兒(一)
大資料到底是什麼?它是為了解決海量資料的儲存和計算所出現的技術,包括結構化和非結構化資料 以及,儲存資料的成本。只會搭搭集群,寫寫map reduce不是我們的核心競爭力所在,即使現在靠這個能混口飯吃,但是能夠想象到,這種型別的人才是可以批量生產的!因為這並不算是什麼核心技術,只要你不傻,借助網上的...
大資料的那些事兒
資源列表 分布式檔案系統 檔案資料模型 注意 業內存在一些術語混亂,有兩個不同的東西都叫做 列式資料庫 這裡列出的有一些是圍繞 key map 資料模型而建的分布式 持續型資料庫,其中所有的資料都有 可能綜合了 鍵,並與對映中的鍵 值對相關聯。在一些系統中,多個這樣的值對映可以與鍵相關聯,並且這些對...
關於大資料的那點事兒
大資料的出現使得很多人開始研究這個新興的事物,因為通過對大資料的分析,可以找到未來發展的方向,同時也能發現企業自身的問題,但是大家是不是真正的懂得大資料呢?理解大資料需要了解什麼呢?這就需要了解大資料的定義 大資料的特徵 以及大資料處理。知道了這些,也就算是正式入門大資料了。一 大資料的定義 大資料...