關於大資料的思考
《大資料思維與決策》讀後感
「21世紀的競爭是資料的競爭,誰掌握資料,誰就掌握未來。」——馬雲
不難理解大資料在我們生活的重要性。隨著科技發展,網路無處不在,儲存資訊的本質是數字0和1(至少目前的計算機是如此),因而可以說資料無處不在。
在《大資料思維與決策》中,作者採用大量例子說明近20年來大資料對傳統行業、傳統思維的衝擊,從醫學到教育領域到金融行業再到網際網路,大資料思維的衝擊是史無前例的。
一、回歸方程帶來的衝擊
從前人們的決策幾乎全靠人為經驗判斷,作者在這個問題裡舉了「尋找棒球隊員」的例子,傳統的方式是經理人(暫以此名字代表挖掘球員的人)通過**無數場(書中有列出具體數字)球賽,觀察球員的每乙個細緻動作,經理人根據經驗判斷該球員是否有潛力成為球星。該方式代價非常大且人為主觀因素會影響決策正確率。大資料思維則是分析球員歷史訓練及比賽的記錄資料,利用數理統計的回歸方法(必須掌握)分析資料,從而**有潛力值球員。相對傳統方式,大資料方法成本大大降低,且準確率更高。顯然,新的方式對傳統經理人帶來的衝擊是極大的,新的思想總會被質疑、抗拒。不過最終由乙個胖球員不被看好,資料顯示有潛力,最終成為球星的例子證明大資料引導決策是正確的。
正如書中所說,資料比人客觀,且現在大規模資料的獲取更加容易,**便宜甚至免費。回歸方法在資料處理中還是十分的有用,必須掌握這一技能。
二、隨機試驗
作者提到的第二個很有用的方法是隨機試驗。基本思想是:
隨機抽取樣本,控制單一變數,進行試驗,分析試驗資料檢驗哪個方式更加具有價值。
隨機試驗思維在大資料下顯得更加有用,文中還列舉了巴西(?具體不記得了)「窮人母親產前補助」、「醫生洗手對手術患者死亡影響」、「某一政策是否正確」等例子說明大資料下隨機試驗的利用。
隨機試驗思想確實是乙個很實用的方法,在以後遇到資料處理、資料決策之前應不忘考慮這種方法。
三、大資料決策的弊端
萬物皆有兩面性,大資料決策為我們提供很多快捷、準確的**。但是,過分依賴資料則讓我們在很多時候得出的結果相差很大。例如,根據某人的歷史資料分析**下周五會去看電影,然而週末該人不小心骨折住院。儘管資料採集到骨折資料,模型不會因此而改變,因為該資料歷史影響甚微,模型會忽略,仍然會認為該人去看電影。根本原因在於模型不會像人那樣正確考慮到骨折的權值,即使是神經網路模型(我的理解是至少現在的神經網路模型還是沒有人那麼聰明),計算機的經驗是有限的,儘管他能夠儲存很多內容,不代表他有人的智慧型。所以很多情況下,人為的干預是十分重要的。
利用大資料進行決策,人為的經驗還是不可或缺的,權值的設定,引數的調整,初值的設定等這些都是經驗得來的,但是即使是這些經驗,也不能太過依賴,因為資料在變化,世界在變化,以前正確的下一秒隨時錯誤。總的來說,資料與人為經驗相結合,互為促進,至於之間的尺度,估計只能在接觸到該行業多年後才會有所想法吧,現在還是太年輕……
五、大資料下的隱私
隨著科技發展,智慧型裝置越來越普及,資訊無處不在,資料無處不在。谷歌等都倡議資料共享,建立人人都可以利用的資料庫。對於資料開發者、資料決策者而言的確是十分有利的。能夠為客戶創造價值,如機票**是客戶購買實惠機票很好的工具,這種情況客戶也是樂意見到的。然而,一些惡意黑客當然也會因此入侵,獲取使用者資料,對人們生活帶來很多干擾甚至是安全隱患。
所以說,大資料下仍然很多問題,不過利益在驅動,還是會繼續發展。這些書中提到的應用和隱患大都基於美國現狀的考慮。對於國內,確實還是有很大差距。首先應用方面,儘管很多網際網路企業開始發力與大資料開發,但是總體的思維還是比較保守(無可厚非),許多模式幾乎照搬國外,就類似雲計算、物聯網,大資料也很多公司只是在搞概念(純靠猜),還有很大的發展空間,必須好好把握好時機。另外,安全隱私,就我個人觀察,國內的隱私意識還是不怎麼注重(又是靠個人經驗判斷的,可以看出我的思維也還是傳統的,靠資料說話啊!!!),當然我們肯定會比國外稍微慢,但是再接下來十年,風雲變幻,一切就說不准了(又在考慮用資料說話啊,統計和**十年後哪國更強啊,**以後行業怎麼變幻啊,有點入魔了)。
總而言之,該書舉了許多大資料決策與應用,也確實呈現了大資料時代是真的到來了。然而,這對我而言並沒有很大幫助,這次之前,我就很明確要跟大資料打交道了。本書跟我最大的收穫是,清楚地了解到更具體的各種大資料應用,了解到不同行業大資料的決策思維,了解到回歸思想以及隨機試驗的重要性。當然,本書讓我對大資料有了更深的體會,思維或多或少有些轉變(但是不夠),儘管技術上沒有什麼提公升,但是其實大資料思維還是很重要的,讓我對很多方面都有了大資料的聯想。
最後,作為物聯網專業,與大資料密不可分,也應該有一些更深的體會。其實大資料也算是物聯網下的乙個分支,物聯網包括感知層、網路層、應用層。感知層的感測器採集是大資料採集(無處不在),網路層的資料處理是大資料處理,應用層的應用是大資料決策。現在網際網路中的大資料比物聯網中只是缺少感測器資料採集部分而已,所以定位到大資料方向還是沒有脫離自己的開始方向。當然,大資料決策絕對不只是網路的決策,如果把世界的任意資訊用資料表示(物聯網),其實也可以說是包括了所有方面。下個浪潮無疑是物聯網,現在只是開始,十年後,世界會變得你完全不認識,如果你沒有具備大資料思維的話,你將被世界淘汰。
至此,算是對該書的閱讀小結,由於時間匆忙,閱讀難免不夠仔細,感想也許片面,至少是我的體會,記錄一下。其實,相關類的資料書籍,我覺得最好還是有過相關專案或工作經歷之後再看或許會有更深入的體會。故不要停止閱讀,不要停止思考!
2023年6月10日星期三
tingelam
大資料排序的思考
如果是陣列,先排序其中一部分,陣列後面的乙個個進來 之後插入排序,然後需要 寫乙個堆排序和快速排序 或者是插入排序,去調最尾端的 或者是100對100 然後將100歸併,再次100歸併 物件型別的,每次,加入,然後刪除一部分,餘下的就是最大的 優先順序是public protect 同一包及其 子類...
關於大資料的大資料平台
大資料平台,顧名思義就是整合 應用和大資料系統之間的差異,將應用程式產生的資料匯入到大資料系統,經過處理計算後再匯出給應用程式使用。網際網路產品處理使用者請求,需要毫秒級的響應,要在 1 秒內完成計算,普通大資料計算必然不能實現這樣的響應要求。如何才能彌補這網際網路和大資料系統之間的差異呢?解決方案...
換個角度思考大資料
什麼是大資料?idc的權威定義為 滿足4v variety,velocity,volume,value,即種類多 流量大 容量大 價值高 指標的資料稱為大資料。idc對大資料技術的定位為 通過高速捕捉 發現和 或分析,從大容量資料中獲取價值的一種新的技術架構。大資料主要涉及兩個不同的技術領域 一項致...