資料分析,是一件慢工細活兒,急不來、粗心不了。借助一些個分析工具,往往可以事半功倍。其實,我覺得資料分析就是兩部分:資料蒐集+分析方法,一開始的時候都是蒐集很多很多的資料,但若思路和方法不正確,前邊都會是徒勞。
**行業中,現在不管是搜尋、社群,還是微博,都走得非常火爆,當然,也說明了它的高利潤和高回報。這次對**行業的資料蒐集有乙個很大的感觸就是,新浪微博明顯比騰訊微博來得活躍、來得更加商業。我整體上是按照下邊這樣的思路來做的,不過n多資料都沒有按照預期得來蒐集,效果也就大打折扣了。
1)針對整個行業,從大的方面蒐集**相關資訊
2)對蒐集到的資訊二次篩選歸類
3)針對各類別,進行型別分析、對比分析、交叉分析等
4)每個類別中挑選出典型的幾個微博進行多維度深入研究
5)總結成功經驗、可借鑑點,資料包表wdohj彙總。
一、關於資料蒐集
蒐集範圍包括主流微博平台:新浪微博和騰訊微博;資料蒐集前我做了關鍵詞的擴充套件,因為同屬於**,但是叫法和搜尋詞可能都不一樣,比如:**、抽脂、**方法等。
關於這塊大家可以通過谷歌關鍵詞擴充套件工具來做,那個比較客觀一些。雖然騰訊微博和新浪微博在找人的搜尋框裡,都會出現下拉的相關搜尋結果,但只是供借鑑,對於前期找大量微博來說還是從熱門核心詞、熱門長尾詞來下手。
當然了,通過點選某個微博的關鍵詞標籤也是可以找到的,不過找到的微博綜合性的較多。
二、關於資料梳理
資料梳理這塊,資料量小的時候比較簡單,後邊不斷蒐集的時候,資料量變大維度越來越多,比如一開始的時候僅僅是微博的基本屬性、後來就涉及到微博內容、**、粉絲特性等等因素,好幾次我都把資料搞亂了,曾經還返工好幾次,很鬱悶。
這裡有個小小的建議,通常程式設計客棧我們都習慣將所有的資料放在一張excel工作表裡,甚至10列、20列,每次要找數的時候,都要ctrl+f5查詢一下;會使用視窗凍結功能還好,萬一臃腫的工作表一卡死,重啟,資料有可能就丟了。所以建議大家在字段超過10個的時候根據不同維度拆分成多個表,利用vlookup()或者透視表來關聯這些資料。
excel表裡有很多好的功能,做資料梳理的時候幫了不少忙,雖然前期學的時候挺痛苦的,另外,spss這個統計分析工具也不錯,挺便利的。
三、關於歸類分析
在做www.cppcns.com**產品時,我是將騰訊和新浪分開的。**大體可以分成資訊、知識分享、企業/**官方、名人、產品品牌、廣告付費服務等幾型別。按區域劃分,主要是在北、上、廣、浙這幾個區域,按粉絲數量分則1w以下、1w-10w、10w-20w、20-30w、30w以上這樣分。
由於時間有限,同時蒐集量也不宜太大,新浪的我精選了100個40%粉絲在10w以上的,騰訊的精選了50個。然後按照上方三個大的維度進行劃分,每乙個維度一張工作表、每乙個環節乙個excel表檔案,這樣就不容易出錯和混亂。
總結20大行業微博資料蒐集分析
微博營銷是乙個新興的網路營銷方式,因為隨著微博的火熱,既催生了有關的營銷方式,就是微博營銷。每乙個人 每乙個企業都可以在新浪,騰訊等等註冊乙個微博,然後利用更新自己的微型部落格iroeozhvz。每天的更新的內容就可以跟大家交流,或者有大家所感興趣的話題,這樣就可以達到營銷的目的,這樣的方式就是新興...
微博明細資料
資料介紹 此資料api返回結果包括 文章唯一id 介面列表 微博分析 介面位址 支援格式 json 請求方式 get請求示例 請求引數說明 編號名稱型別 是否必填備註1 string true 2articleid string true 文章id 3secondspread boolean fal...
python 抓取微博資料
匯入需要的模組 import urllib.request import json 定義要爬取的微博大v的微博id id 1259110474 設定 ip proxy addr 122.241.72.191 808 定義頁面開啟函式 獲取微博主頁的containerid,爬取微博內容時需要此id d...