盧鬆鬆如何正確進行資料分析

先給大家看幾條關於網際網路的新程式設計客棧聞，第一條是百度網頁搜尋份額達到73.2%，百度處理了1096億條網頁搜尋請求，與去年相比提公升了0.6個百分點。報告發布後，有出現了很多部落格就根據這個數字來攻擊google，說它做的不好。

來看第二條，還是同乙份資料，裡面提到百度搜尋請求提公升了0.5個百分點，google搜尋請求提公升了3.5個百分點，google成為增長最快的搜尋引擎。

這兩個新聞都用了資料，而且是一樣的資料，但如果只看第一條和第二條後得出的結論是截然不同的。那看第三條，同樣是關於市場份額的資料，百度市場份額下降2.1%，google增加5.6，二者差距縮小至7.7%。同樣的幾條新聞selzwy看下來，都是和搜尋引擎市場份額相關的數字，但如果是乙個對搜尋引擎市場不熟悉的人看到，最後就會得出乙個非常混亂的結論。

為什麼三篇新聞引用了同樣的資料卻得出了不同的結果？下面盧鬆鬆來解析下關於如何分析資料的幾個原則。

第一，獨立的看乙個資料是沒有意義的。

接著上面的講，百度和google市場份額問題，在第一條新聞中說到百度市場份額上公升0.6%，給人感覺是百度上公升，自然而然就暗示百度上公升、 google下降。第二條報道比較全面，它的含義是其他搜尋引擎份額都在下降，google和百度都在增長，而且google增長的更快。這說明我們不能孤立的www.cppcns.com看乙個數字。

在比如把搜狐和新浪全放在一起對比的話，會很不合理，搜狐有網遊、無線、廣告，而新浪主要是無線和程式設計客棧廣告，3:2顯然不合理，單獨拉出來比較才有比較合理的。

第二，資料的口徑必須有可比性。

對於本文前面提到的搜尋程式設計客棧引擎市場份額的例子，有的按搜尋請求來定義，有的按收入來定義，把不同的資料放在一起比是沒意義的。如果乙個資料不能自然而然的看出來，就應該看下他的定義。即使同樣的定義，不同的公司來做，得出的結果也不盡相同。重要的是我們一定要保證口徑一致的前提下進行比較。

第三，資料收集方式的差異

各個**上經常出現熱點事件報道後的調查，例如360和qq你選擇解除安裝誰的調查，其實結果往往不能反映真實情況，因為一般而言，只有對這個新聞關心的人才來表達如何看新聞，才來投票，用他們的投票結果來代表整體的意見，從而引導另一批不明真相的群眾跟隨主流觀點。網路調查的結果很容易被廠商利用，用以宣傳自己抨擊對手。

因此，對乙個數字，最好多問幾個問題。碰到乙個數字時最好不好直接拿出來用，首先應該清楚資料的**是**，它通過什麼方式獲得的，這個資料的含義、定義是什麼，是否有什麼遺漏的地方。就像之前搜尋引擎市場份額的例子，看明白是哪部分份額、以什麼為標準，之後才能得出正確的結論。

原創文章請註明**自盧鬆鬆部落格

本文標題: 盧鬆鬆：如何正確進行資料分析

本文位址:

盧鬆鬆如何正確進行資料分析

如何進行資料分析？

如何利用Python進行資料分析

如何使用zeppelin進行資料分析

盧鬆鬆 如何正確進行資料分析

如何進行資料分析？

如何利用Python進行資料分析

如何使用zeppelin進行資料分析

相關推薦

盧鬆鬆如何正確進行資料分析