大資料的核心就是**。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種 機器學習。但是這種定義是有誤導性的。大資料不是要教機器像人一樣思考。相反,它是把數學演算法運用到海量的資料上來**事情發生的可能性。
一.思維
1.不是隨機樣本,全體資料
小資料時代的主要方式隨機取樣:
取樣分析的精確性隨著取樣隨機性的增加而大幅提高,但與樣本數量 的增加關係不大
全資料模式,樣本=總體:
大資料是指不用隨機分析法這樣的捷徑,而 採用所有資料的方法
2.不是精確性,而是混雜性
允許資料不精確:
案例:有一種簡單的演算法表現得很差,但當資料達10億的時候,它變成 了表現最好的,準確率從原來的75%提高到了95%以上,例如sqoop
大資料的簡單演算法比小資料的複雜演算法更有效
混雜性,不是竭力避免,而是標準途徑:
當數量規模變大的時候,確切的數量已經不那麼重要了
新的資料庫設計
例如hdfs,hive,hbase等等
3.不是因果關係,而是相關關係
知道是什麼就夠了,沒必要知道為什麼
改變操作方式
改變探索世界方式
參考《大資料時代》(維克托·邁爾·捨恩伯格)
大話測試之BT思維
挨踢脫口秀,將技術娛樂化,碎片系統化,盡在荔枝fm 不廢話,我們接著上篇的文章繼續來大話一下測試,這次的主題主要圍繞思維,而且我用了 bt來形容,你懂得,哈哈。什麼是正向思維呢?你不要糾結了,我們不要管什麼定義啊,概念啊什麼的,就從字面意思理解,就是說我們正常的思維,正向的,比如說,你上汽車,肯定是...
大話分析性思維的發展
啊哈!領導年少有為,意氣風發,創業三年,員工數人。領導說 寫個加法函式,算算存款。我嗖嗖嗖三行 領導說 寫個加減乘除計算器,想給兒子批改作業。我稍微一想,四個函式,蹭蹭蹭搞定。領導說 寫個常用運算的計算器,包括指數 開方 對數,想賣給小學做工具。我想了想,不好弄,得畫個關係圖,用了一周時間,重構了一...
大話資料探勘
資料探勘,說得通俗一點,就是在一定範圍的資料中,經過分析處理,獲得對自己有用的資訊。說到資料探勘,就不得不提現在非常熱門的 大資料 對於資料探勘,小量的資料規模沒有太高的研究價值,一般都是海量的資料資訊,才值得投入大量的時間和精力去研究。資料探勘分析的資料有一些特性,基本上可以概括為5v 據說是ib...