「大資料,多大算大?」——這是乙個經常被問到的問題。
這不是乙個經濟學問題,也不是乙個數學問題,而是需要具體情況具體分析的乙個實驗問題。然而,實驗需要工具。
首先,這取決於目標。如果沒有明確的目標,資料常常被籠統地認為有用。然而,實際並非如此。網際網路每天都產生大量資料,但其中大部分資料是噪音,不僅沒有用,還需要被化療掉。當我們設定好乙個可以量化的目標變數,演算法才可以用科學的方式量化評估資料價值。
其次,我們需要工具,可以自動化跑通建模全流程,從而評估效果。這在機器學習技術——有監督學習中有詳細介紹。在分類問題中,量化效果的指標包括:auc, ks, accuracy, precision, recall, f1 measure;在回歸問題中,量化效果的指標包括:rmse, rmsle, mae, gini。也就是說,當我們明確目標後,把資料丟給工具,工具告訴我們:用這份資料建模,效果是多少。
當我們有了目標和工具,我們便可以評估樣本大小和資料價值的關係了。我們可以把資料進行分割,乙份用於訓練模型(訓練資料),乙份用於測試效果。對於訓練資料,我們可以再隨機均分為n份,基於部分訓練資料進行**並計算效果。然後,我們便可以評估訓練樣本大小和模型效果之間的關係。不僅如此,我們還可以由此推斷,什麼型別的樣本最有價值。
不是所有特徵(變數)都有用,有用的特徵往往並不多。建模工具同時還可以提供——哪些特徵有用,權重分別是多少,詳見機器學習技術——有監督學習。基於機器學習演算法選擇的變數和對應權重,我們可以進一步進行關聯,找到和有用變數相關的其他潛在變數。
1.這份資料的效果有多好?
2.樣本大小與資料效果的關係?
3.什麼樣本最有用?
4.什麼特徵最有用?
如此,你便可以繼續收集和重要樣本類似的樣本,繼續提取和重要變數相關的變數。
如果我們可以輕而易舉地知道什麼資料有用,那麼,大資料,多大都不算大。
大資料,多大算「大
在資料 氾濫 的今天,人人都在提 大資料 但多大的資料才算 大 呢?如果盲目的強調 大 結果只會被資料淹沒,從而導致資訊過量,最終對決策不僅沒有幫助反而使人困惑 不知所措。今天,我們來談一談資訊過量的問題。資料分析的目的 我們對資料做分析的目的是將資料轉化成資訊,從而幫助人們更好的做決策。因此,決策...
大資料,多大算「大
在資料 氾濫 的今天,人人都在提 大資料 但多大的資料才算 大 呢?如果盲目的強調 大 結果只會被資料淹沒,從而導致資訊過量,最終對決策不僅沒有幫助反而使人困惑 不知所措。今天,我們來談一談資訊過量的問題。資料分析的目的 我們對資料做分析的目的是將資料轉化成資訊,從而幫助人們更好的做決策。因此,決策...
大資料有多大?
本文計算人類產生資料的能力。那麼,大資料到底有多大?是不是像某些人想的那樣,可以趨近於無限大呢?在某些時候,我也會這麼想,可是不能把科幻寫成吹牛皮,明明4k的畫質就已經很清晰了,偏偏科幻出乙個4000k的畫質,這沒有意義。下文中,我們就具體計算一下,人類到底能夠產生多大的資料。計算過程 80億人 8...