盧鬆鬆 如何正確進行資料分析

2022-09-28 17:42:12 字數 1280 閱讀 2353

先給大家看幾條關於網際網路的新程式設計客棧聞,第一條是百度網頁搜尋份額達到73.2%,百度處理了1096億條網頁搜尋請求,與去年相比提公升了0.6個百分點。報告發布後,有出現了很多部落格就根據這個數字來攻擊google,說它做的不好。

來看第二條,還是同乙份資料,裡面提到百度搜尋請求提公升了0.5個百分點,google搜尋請求提公升了3.5個百分點,google成為增長最快的搜尋引擎。

這兩個新聞都用了資料,而且是一樣的資料,但如果只看第一條和第二條後得出的結論是截然不同的。那看第三條,同樣是關於市場份額的資料,百度市場份額下降2.1%,google增加5.6,二者差距縮小至7.7%。同樣的幾條新聞selzwy看下來,都是和搜尋引擎市場份額相關的數字,但如果是乙個對搜尋引擎市場不熟 悉的人看到,最後就會得出乙個非常混亂的結論。

為什麼三篇新聞引用了同樣的資料卻得出了不同的結果?下面盧鬆鬆來解析下關於如何分析資料的幾個原則。

第一,獨立的看乙個資料是沒有意義的。

接著上面的講,百度和google市場份額問題,在第一條新聞中說到百度市場份額上公升0.6%,給人感覺是百度上公升,自然而然就暗示百度上公升、 google下降。第二條報道比較全面,它的含義是其他搜尋引擎份額都在下降,google和百度都在增長,而且google增長的更快。這說明我們不能 孤立的www.cppcns.com看乙個數字。

在比如把搜狐和新浪全放在一起對比的話,會很不合理,搜狐有網遊、無線、廣告,而新浪主要是無線和程式設計客棧廣告,3:2顯然不合理,單獨拉出來比較才有比較合理的。

第二,資料的口徑必須有可比性。

對於本文前面提到的搜尋程式設計客棧引擎市場份額的例子,有的按搜尋請求來定義,有的按收入來定義,把不同的資料放在一起比是沒意義的。如果乙個資料不能自然而然的看 出來,就應該看下他的定義。即使同樣的定義,不同的公司來做,得出的結果也不盡相同。重要的是我們一定要保證口徑一致的前提下進行比較。

第三,資料收集方式的差異

各個**上經常出現熱點事件報道後的調查,例如360和qq你選擇解除安裝誰的調查,其實結果往往不能反映真實情況,因為一般而言,只有對這個新聞關心的人才 來表達如何看新聞,才來投票,用他們的投票結果來代表整體的意見,從而引導另一批不明真相的群眾跟隨主流觀點。網路調查的結果很容易被廠商利用,用以宣傳 自己抨擊對手。

因此,對乙個數字,最好多問幾個問題。碰到乙個數字時最好不好直接拿出來用,首先應該清楚資料的**是**,它通過什麼方式獲得的,這個資料的含義、定義 是什麼,是否有什麼遺漏的地方。就像之前搜尋引擎市場份額的例子,看明白是哪部分份額、以什麼為標準,之後才能得出正確的結論。

原創文章請註明**自盧鬆鬆部落格

本文標題: 盧鬆鬆:如何正確進行資料分析

本文位址:

如何進行資料分析?

很多人在進行資料分析的時候總是會有些迷惑,那就是不知道怎麼去進行資料分析或者資料分析到底要何處下手,其實這個問題的癥結就是對資料分析沒有乙個明確思路。在進行資料分析的時候,我們可以制定乙個計畫,就能夠知道自己在各個階段該如何做好資料分析工作。簡單來說,可以總結為五個步驟,這五個步驟分別是確定分析目的...

如何利用Python進行資料分析

本文主要對numpy和pandas兩個常用的資料處理元件進行簡單介紹。配套工具 環境配置不作詳述,基本上網上都能搜到。python 3 2 numpy pandas matplotlib jupyter ipython visual studio code 基本配置,在mac下的話配置十分方便,自要...

如何使用zeppelin進行資料分析

spark官方文件 yum y installl lrzsz1.在hadoop目錄下執行,從本地 windows 上傳user.csv檔案到虛擬機器2.檢視hdfs目錄 hdfs dfs ls 3.遞迴建立目錄 hdfs dfs mkdir p events users4.上傳檔案到hdfs hdf...