王堅博士在書中提到,大資料這個叫法是有些許錯誤的。於是,我便帶著這個問題:「大資料不叫大資料,那它應該叫什麼?」去認真的閱讀了此書。下面分享一下,我對這個問題的些許看法。
大資料、雲計算是共生體。為什麼將它們兩個放在一起呢?因為它們兩個誰也離不開誰,準確的來說它們兩個算得上一對宿命鴛鴦。資料不計算永遠產生不了價值,計算沒有資料作為基礎,算是在做無用功。造詞者,當時可能沒有想到大資料、雲計算會走到一起。但是,幸運的是,命運千轉百回,它們終成伴侶。
它們彼此讓自己更有價值,同時也讓彼此的真實面容展現出來。回到我們一開始的問題:「大資料如果不叫大資料,它應該叫什麼?」雲資料,我個人覺得這個詞更適合取代大資料這個詞。如果按照大資料的體量來講,世界上的資料能稱得上大的,恐怕只有歐洲大型電子對撞機產生的資料,而今天我們講得最多的「大資料」,是來自網際網路的資料。王堅博士在書中提到了資料是由沉澱效益的,準確的來說,沉澱的越多,價值也就越大。
這樣乙個效益規律不禁讓我想起,由水蒸氣聚集形成的雲。水蒸氣越聚越多,在自然重力的作用下形成了雨,滋潤了萬物。水一直被視為人類生命之源,水創造了萬物,價值也就不可用數字來衡量。同樣,今天資料也被視為商業動力之源,指導生產生活。我相信未來資料創造的價值也不可用數字來衡量。
雲資料的價值因其所在的領域而定,在這一點上真實的雲也是如此。在乾旱的地方,水的價值相對來說很大。對於雲資料來說,行業資料沉澱的越多,行業發展的也就越健康。在相對意義上來說,可增長價值也就越小。但是,對於行業資料匱乏的領域來說,發展相對艱難,整個行業都期待能有一場春雨來歡聚它們生存的壓力,過去我們靠什麼?外部的投資,國家的政策。但是,我們發現這些並不能長久解決問題,只是解決了燃眉之急。
其實,到最後大家能意識到的是:只有自己才能解決自己的問題。今天是乙個自救的良機,因為有網際網路、雲資料、雲計算的存在。網際網路成為基礎設施,資料成為生產資料,計算成為公共服務。
或許因為資料的出現,不管是行業,還是人,「自救」會成為時代的主題。不管是自然界賦予人類的資源,還是國家政策、外部投資賦予行業新的生命,到最後都會落到「自救」上。這或許也驗證了:只有自己才能救自己,這句至理名言的準確性。
其實,這也就引起了資料到底有什麼價值?讓今天那麼多人為它痴狂,也讓行業和人類願意將自己的命運交付給它。我認為資料並不能直接創造價值!網際網路高度發展的今天,擁有資料並不算是一件難事,所有擁有處理它的能力和思想就變得至關重要了。資料創造價值的核心是不變的,那就是:讓資源利用率最大化。
馬雲先生在貴州的時候,就提到過計畫經濟可能會重新回歸,同時他也表示計畫經濟或許是世界上最好的經濟形式。之所以稱其為最好的經濟形式,無非是其效率是真的高。當然,這個觀點一出,瞬間受到了很多經濟學教的批評。這其中的原因也是因為上個世紀,我們吃過計畫經濟的虧。正所謂「一朝被蛇咬,十年怕井繩」。
但是,在怕的時候,我們應該回想過去計畫經濟體系失敗在**?計畫經濟體系失敗的原因在於,當時科學技術的限制,**集權自上而下式的計畫經濟。上面的人靠不靠譜的不完整的資料樣本,來制定經濟發展規則。而今天馬雲先生提到的計畫經濟不是上個時代的計畫經濟,它們兩個在本質上是由巨大差異的。最明顯的是今天的計畫經濟是自下而上的。在使用的資料體量上也是有天壤之別的,資料的使用量帶來了質的變化。這個質的改變是計畫經濟的質。
另外乙個新時代的計畫經濟和舊時代的計畫經濟的區別是,新時代的計畫經濟是完全依靠客觀實在的資料得到的;而舊時代的計畫經濟是帶有人的主觀意志的計畫經濟,準確的來說是不客觀的。推動這一區別顯現的是今天人工智慧的高速發展。由機器取代人去做決策,這是時代發展的趨勢。也是體現新時代的計畫經濟一種優越性的乙個重要指標。
我們今天使用的市場經濟是一雙看不見的手,而今天即將復活的計畫經濟本質是一雙由市場資料演變成的一雙看得見的手。
大資料雜談
談到大資料,讓我想起了乙個段子,說人們談大資料就像青少年談 每個人都談的頭頭是道,但都不知道對方說的是什麼玩意,同時還要裝做自己都聽懂了。好在這些曾經的青少年,有的也已經過了 禮,或多或少的有了一些經驗,沒有了當初的青澀和懵懂,也沒有當初那麼健談。再說起大資料時,已經從最開始的狂熱,逐步變得理性,或...
大資料雜談之 HIVE和HBASE區別
1.兩者分別是什麼?apache hive是乙個構建在hadoop基礎設施之上的資料倉儲。通過hive可以使用hql語言查詢存放在hdfs上的資料。hql是一種類sql語言,這種語言最終被轉化為map reduce.雖然hive提供了sql查詢功能,但是hive不能夠進行互動查詢 因為它只能夠在ha...
資料倉儲雜談
昨天跟同事聊了下目前哪些行業資料倉儲比較領先,各個行業的資料倉儲是怎麼做的,跟網際網路比,差別是什麼東西,前期資源評估,資料庫選型怎麼搞等。有點心得,記錄如下 1,目前來看,金融,保險,通訊,網際網路,物流這幾個行業的資料倉儲做的比較領先,其中由於金融和通訊的業務模型比較穩定,清晰,所以基本上從業務...