ps:大資料使用的思維方式
假設擲出一枚硬幣,正面朝上的概率是50%,如果連續99次投擲硬幣都是正面朝上落地,那麼下一次投擲硬幣正面朝上落地的概率是多少?這是taleb在《黑天鵝》一書中給出的乙個假想的問題。在taleb的書中,受過正統教育的約翰博士給出了教科書教給我們的標準回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因為下一次硬幣朝向與之前投擲的結果無關。而教育背景沒有那麼光鮮的胖托尼則認為下一次投擲硬幣正面朝上的概率為99%。孰對孰錯?我和讀者都不妨給出自己的判斷。而如果一定要為自己的答案下一萬塊錢的賭注的話,我和taleb一樣,更傾向於與不是那麼教條的胖托尼保持一致,更傾向於相信下一次硬幣正面朝上的機率為99%,更傾向於相信我之前的有關正面朝上落地的概率是50%的假設是錯誤的。
但是,與科學研究中以求真為目的的構建模型不同,大資料時代的模型構建將更加以務實為目的,即遵循統計學家george e. p. box的觀點「本質而言,所有模型都是錯誤的,只是有些模型更有用」(essentially, all models are wrong, but some are useful)。大資料時代的很多模型都是為了指導商業決策而設的,而商業決策通常會影響決策者的利益。所以,乙個模型是否正確不是最重要的,重要的是決策者對這個模型有多大的把握,決策者能否從這個模型中獲利。所以,大資料時代中最為關鍵的應該是基於資料的模型能否說服決策者據此進行決策,並且幫助決策者改善決策賺取相應的利潤。前者表現為決策者願意將多少錢押在這個模型上,而後者表現為這個模型在現實中的表現如何。所以,如果讓讀者你參加本文開始所設計的假想賭局,無論約翰博士看起來多麼專業也不能阻止讀者更相信胖托尼的模型,因為畢竟這涉及到真金**。胖托尼也許在最初和約翰博士一樣,相信硬幣正反面朝上面落地的概率各是50%。既然所有模型都是錯的,但是胖托尼能夠利用他所觀察到的硬幣一次次正面朝上落地的事實修訂他的模型,使其越來越接近真實情況。而約翰博士仍然抱殘守缺,固守著他的50%的最初假設。
以賽亞*伯林(isaish berlin)曾經援引古希臘詩人的殘簡「狐狸多知而刺蝟有一大知」將知識分子分為狐狸和刺蝟兩類。刺蝟用乙個巨集大的概念解釋所有現象,如約翰博士一般;狐狸知道很多事情,用多元化的甚至相互矛盾的視角看待問題,狐狸也願意包容新的證據以使得自己的模型與之相適應,如胖托尼一般。tetlock等人的研究表明,在現實的**中,狐狸的表現要優於刺蝟。在大資料時代,人們能夠接觸越來越多的資訊,這些資訊能否修訂決策者已有的觀念,對決策者的決策產生影響,這是大資料能否發揮價值的關鍵所在。有些刺蝟類決策者,他們可能會有意無意忽略與其觀念相左資料而只保留那些能夠證明其想法的資料,在這裡無論系統處理了什麼規模的資料,這些系統投資也只是****的裝飾,沒有太大意義。
很多人都知道亞當斯密(adam smith)在《國富論》中所描述的市場中的「看不見的手」。在市場中,沒有人掌握有關生產和消費的全域性資訊,但是人們通過市場交易對供需的行為作出反應,從而逐步更新**,進而達到平衡。與亞當斯密同時代且同在蘇格蘭接受教育的thomas bayes的貝葉斯定理(bayesian's theorem)也和亞當斯密的「看不見的手」有相通之處。貝葉斯理論允許每個人擁有有關世界的先驗的信念,胖托尼也許最初認為硬幣正面朝上的概率是1/2,如果他看到了99次投擲硬幣的結果中有50次是正面朝上,他會認為這個硬幣正面朝上的概率是51/101,大致可以確信硬幣正面朝上的概率是50%。而當他看到了連續99次的硬幣正面朝上落地,則他不斷利用資料修改其信念,認為這個硬幣可能有問題,正面朝上的概率應為100/101,即本文開始部分所**的99%。當然,你也可以如約翰博士一樣固守自己最初50%的教科書般的假設,而這樣的結果是你輸掉了一次又一次的賭博,直到出局。
利用新的資料與新的證據不斷修訂對世界的假設是狐狸式的思維方式也是貝葉斯思維方式的基本理念,這也應當是大資料時代思維的基本理念。隨著網際網路及雲計算的普及,在大資料時代,人們有機會從多個渠道、多個角度獲得對事物的知識。貝葉斯的「看不見的手」利用這些知識逐步修訂人們對事物的假設,而人們基於這些假設進行的決策通過亞當斯密的市場的「看不見的手」被評估與選擇,從而形成相應的社會秩序。無論人們最初關於事物的認識存在什麼樣的差異,在貝葉斯與亞當斯密兩重「看不見的手」的作用下,「隨著越來越多的證據的出現,我們的信念將趨於一致,並且趨於真相……即使我們最初擁有有誤的甚至是錯得離譜的先驗認識,最終也將趨於真相。」
大資料中的貝葉斯學習
在大資料時代,種類多樣的科學與工程資料快速增加。由於物理環境的隨機性 資料雜訊 資訊不完全等因素的存在,大資料中具有普遍的不確定性。如何對大資料進行有效的不確定性建模和高效計算是機器學習面臨的重要挑戰。貝葉斯方法自1763年提出以來,已有250多年的歷史,在人工智慧 機器學習的眾多領域得到了廣泛應用...
頻率派與貝葉斯派的爭論
頻率學派認為世界是確定的,有乙個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的範圍。頻率學派 存在唯一真值 當資料量趨於無窮時,這種方法能給出精準的估計 然而缺乏資料時則可能產生嚴重的偏差。貝葉斯學派認為世界是不確定的,人們對世界先有乙個預判,而後通過觀測資料對這個預判做調整...
資料分析與機器學習學習筆記 貝葉斯演算法
貝葉斯演算法源自於概率論中的貝葉斯公式,首先我們了解一下貝葉斯公式的作用,概率論中分為正向概率與逆向概率 對於上面正向概率我們顯然會發現其摸出黑球的概率為m m n 而對於逆向概率我們第一眼看上去並沒有什麼好的方法,此時就要輪到本篇介紹的貝葉斯公式出場了,貝葉斯公式主要就是解決逆向概率而產生的。首先...