在我看來,只有資料量很大且資料維度全的資料才能夠稱得上是大資料。
為什麼資料量必須得要大?
這是因為如果我們使用區域性樣本來代替整體的時候,可能會由於區域性樣本不能夠完全反映整體,從而導致我們對整體的真實情況的認知造成偏差。例如當我們以貼吧和網易的使用者素質來作為全體網民的整體素質,顯然會造成我們對整體網民素質的認知要遠比真實的素質要低,而如果用知乎來代替整體,則也會造成偏高的情況。
所以樣本代替整體必然會產生偏差。而隨著科技的發展,我們已經能夠直接使用整體資料來對整體進行資料探勘了,既然如此那麼我們為何不直接使用整體資料進行資料探勘呢,對吧?
雖然我們已經明白資料量必須要大的重要性,那麼對於資料探勘什麼才叫大呢?
因此所謂的大資料應當是覆蓋我們的研究物件的全體物件的資料,如果這些資料不能覆蓋、也跟我們所研究的物件無關,那麼這些資料就不是大資料。
為什麼資料維度必須要全?
試想即使我們獲取了6億網民的資料,但是資料維度只有年齡這乙個維度,那麼我們除了能夠分析網民的年齡構成之外,就再也做不了其它的事了。這樣的大資料對於我們來說並沒有多大的意義,也很難產生商業價值。換言之,如果資料維度很全,我們所要研究的維度資料都有,那麼我們就能進行我們想要進行的資料探勘,這對於我們來說才有意義,也更容易產生商業價值。
資料維度全既可以用於整體資料探勘(巨集觀)也可以用於個體資料探勘(微觀)
事實上目前的資料探勘都是偏向巨集觀的,所以這裡不再贅述。主要談談微觀的資料探勘。
微觀資料探勘是什麼意思?理論基礎是什麼?
微觀資料探勘是在資料維度極全的基礎上(這是前提條件)對乙個人或極少數人進行資料探勘,目的是能夠通過資料來對這個人到底是什麼樣的人構建乙個模型,這個模型應當能夠比較準確地**物件的行為。如果不太理解的話,可以去看看《心理測量者》
理論基礎是行為心理學,我們認為乙個人是什麼樣的人不取決於他認為自己是個怎麼樣的人,而是取決於他的行為,而他的行為可以被量化成資料,而我們可以利用資料構建模型來擬合這個人的真實情況,到底是乙個怎麼樣的人。
微觀資料探勘有什麼用?
主要在兩方面:
一方面是為對於我們而言特別重要的客戶進行微觀資料探勘,從而為我們提供更大的商業價值。
另一方面則是為所有的人都進行微觀資料探勘,這樣我們就能夠準確地**每個人的行為,從而從中挖掘到更大的商業價值。
是什麼軟體 什麼樣的軟體才能算BIM軟體?
在比較常見的bim軟體清單裡,基本上不會看到3dmax的身影,而又會把跟3dmax建模方式類似的sketchup rhino歸為bim軟體,這是為何?如果必須有乙個簡單粗暴的分類方法的話,那就是ifc,支援ifc的就是bim軟體,反之就不是。ifc又是什麼呢?ifc全稱為industry found...
什麼樣的伺服器才能叫做大併發
我覺得伺服器在成為大併發前,首先要能承受住大併發的壓力,無論能否正常返回,首先不能崩潰。apache和nginx是兩個出名的伺服器,先來分析一下它們。大量使用者訪問的時候,apache會建立大量的程序數,吃掉大量的記憶體,而nginx記憶體這塊做得很好,不過這也是nginx的瓶頸所在。所謂有記憶體就...
未來的資料中心是什麼樣的
隨著基於雲計算的服務成為業務流程的主要內容,組織的重點將從平台型別 私有雲或公共雲 轉變為專注於靈活性的不可知方法。幾年前,很多組織在選擇雲計算解決方案時,首先會檢視它是私有雲還是公共雲解決方案。如今,組織越來越關注靈活性而不是雲計算的型別,將業務從自己運營的基礎設施轉移到乙個複雜的現代化基礎設施。...