講座 中等規模海量資料處理例項

2021-05-12 07:26:14 字數 309 閱讀 6220

講座細節不便多說,是為精準營銷提供資料探勘技術支援的。

從該講座引發了我的一點思考:

運用該類技術,分析得出遊戲使用者的偏好,從而為以下決策作參考:廣告宣傳側重點、玩法投放先後順序、後期開發方向、收費道具銷售策略等。

隨之,技術成本?如何決策?btw,這似乎是老闆要考慮的。

對資料探勘分析,獲取決策的支援,這個思想在小地方的運用也挺好的。比如個人時間管理,先要養成每天記錄時間應用情況,獲得乙個時期的時間應用記錄;然後對這段時間進行分析,對後續的時間管理進行調整。

海量資料處理

1 有一千萬條簡訊,有重複,以文字檔案的形式儲存,一行一條,有 重複。請用5分鐘時間,找出重複出現最多的前10條。方法1 可以用雜湊表的方法對1千萬條分成若干組進行邊掃瞄邊建雜湊表。第一次掃瞄,取首位元組,尾位元組,中間隨便兩位元組作為hash code,插入到hash table中。並記錄其位址和...

海量資料處理

給定a b兩個檔案,各存放50億個url,每個url各占用64位元組,記憶體限制是4g,如何找出a b檔案共同的url?答案 可以估計每個檔案的大小為5g 64 300g,遠大於4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。遍歷檔案a,對每個url求取hash url 1000...

海量資料處理

分而治之 hash對映 hash統計 堆 快速 歸併排序 300萬個查詢字串中統計最熱門的10個查詢。針對此類典型的top k問題,採取的對策往往是 hashmap 堆。hash統計 先對這批海量資料預處理。具體方法是 維護乙個key為query字串,value為該query出現次數的hashtab...