講座細節不便多說,是為精準營銷提供資料探勘技術支援的。
從該講座引發了我的一點思考:
運用該類技術,分析得出遊戲使用者的偏好,從而為以下決策作參考:廣告宣傳側重點、玩法投放先後順序、後期開發方向、收費道具銷售策略等。
隨之,技術成本?如何決策?btw,這似乎是老闆要考慮的。
對資料探勘分析,獲取決策的支援,這個思想在小地方的運用也挺好的。比如個人時間管理,先要養成每天記錄時間應用情況,獲得乙個時期的時間應用記錄;然後對這段時間進行分析,對後續的時間管理進行調整。
海量資料處理
1 有一千萬條簡訊,有重複,以文字檔案的形式儲存,一行一條,有 重複。請用5分鐘時間,找出重複出現最多的前10條。方法1 可以用雜湊表的方法對1千萬條分成若干組進行邊掃瞄邊建雜湊表。第一次掃瞄,取首位元組,尾位元組,中間隨便兩位元組作為hash code,插入到hash table中。並記錄其位址和...
海量資料處理
給定a b兩個檔案,各存放50億個url,每個url各占用64位元組,記憶體限制是4g,如何找出a b檔案共同的url?答案 可以估計每個檔案的大小為5g 64 300g,遠大於4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。遍歷檔案a,對每個url求取hash url 1000...
海量資料處理
分而治之 hash對映 hash統計 堆 快速 歸併排序 300萬個查詢字串中統計最熱門的10個查詢。針對此類典型的top k問題,採取的對策往往是 hashmap 堆。hash統計 先對這批海量資料預處理。具體方法是 維護乙個key為query字串,value為該query出現次數的hashtab...