由於數字營銷發展迅猛,資料來源和處理方式多種多樣,要求越來越高,根據admaster公司實際應用場景經過10多年的打磨,構建了一套網際網路數字營銷廣告管理平台。
公司要為數千家客戶提供廣告監控、輿情分析、人群畫像等多方面的技術支援,每天處理的資料報含廣告資料、輿情資料、第三方資料等等多樣化且數量較大的資料,所以我們面臨的主要挑戰就是:如何把每天上百億的資料整合和計算,以滿足公司多業務多產品線的需求。
admaster成立於2023年,是領先的營銷資料技術公司,利用先進的大資料技術幫助品牌指導營銷策略並預先量化營銷效果。經過11年的發展,公司總人數現有員工400多人,其中本科及以上的科技人員300人,佔公司員工總數的75%。公司與國際、國內超百家**及上下游合作夥伴保持長期合作關係,保證了公司作為資料樞紐的多方資料來源對接和融合。致力於促進數字營銷行業和大資料產業的蓬勃快速發展,推動行業標準的建立,並以知識貢獻者的身份為行業不斷培訓、輸入專業人才。
方案選型與對比
對於我們面臨的問題,在國內外也有很多同型別的產品平台,基本可以分為三大類,一類是商業購買的商業平台,一類是基於開源軟體搭建並附加上自己的產品邏輯,admaster分布式混合異構大資料系統屬於第三類,即對開源軟體的改造和整合。下表分別比較這三種平台的特點。
經過以上分析,最終我們選擇了自主研發的「混合異構營銷資料平台」。對於此平台的具體細節,下面分別闡述:
專案平台整體架構
圖1 專案系統整體架構
關鍵技術
(1)大資料資料儲存與管理技術
分布式儲存技術:解決元資料管理、系統彈性擴充套件技術、儲存層級內的優化技術、針對應用和負載的儲存優化技術,針對營銷活動的各環節,採用不同的方案,從最底層來優化儲存,並為後續的計算優化打下基礎。
採用的儲存方案:根據營銷面向的不同行業的特性,對資料的管理、查詢以及分析的效能需求,資料規模和吞吐量的增長需求,主要採用關係型資料庫、非關係型資料庫、實時資料庫、列式資料庫等儲存方案。
(2)資料視覺化技術
傳統的資料視覺化工具僅僅將資料加以組合,通過不同的展現方式提供給使用者,用於發現資料之間的關聯資訊。採用視覺化開發工具spark graphx和moojnn解決方案等技術,保證營銷資料視覺化應用效果,能夠快速地收集分析資料並對資料資訊進行實時更新。資料視覺化展現包括**、圖表、圖形、示意圖、地圖和標籤雲圖,從而使使用者能夠建立簡單的儀表板或者炫麗的監管 資訊圖表和視覺化效果。通過最新的html5技術,可最大化呈現豐富的資料內容,並相容平板電腦、智慧型手機和個人計算機,實現移動監管。
(3)大資料分析與挖掘技術
採用統計分析技術,把計算推向資料並且並行處理,使hadoop獲得了強大的深度分析能力。經過演算法的並行化,突破原有的可處理資料的技術瓶頸,利用平行計算模式大幅度提高了工具的計算效能,同時賦予了系統技術深度分析的能力。
圖2 演算法分析圖
(4)人工智慧和商業智慧型技術
商業智慧型方面,admaster則主要致力於多維資料組合查詢、使用者自定義資料分析、基於 「人-事件」的受眾人群分析等方向。具體來說:多維資料組合查詢,主要應用於廣告資料分析。基於 admaster 的大資料分析平台,每天分析 100 億以上的廣告資料,從 50 多個維度的各種組合來透視這些廣告資料的價值,每天 5:00 以前為所有廣告主提供準確的報表。使用 web 2.0 技術,動態平滑公升級,可以做到使用者無感知。資料查詢速度也在秒級完成。作為固定多維度查詢的補充,廣告系統還支援使用者自定義資料分析:
(5)資料質量控制技術
由業務系統中獲取的資料首先進入ods,etl引擎根據元資料規範和業務規則對ods資料進行整合處理,正常資料進入主題資料庫,完成整合,異常資料進入資料質量管理系統進行人工干預。資料質量管理系統對異常資料進行人工干預,通過人工干預可處理的批量資料進行臨時庫,由etl根據新的規則進行處理。通用地干預措施形成元資料規範,進入元資料規範標準,無法處理的資料暫存到臨時庫,通知業務單位處理。
圖3 專案adh資料處理架構圖
圖4 專案adh資料處理流程圖
(1)自主研發的高併發資料採集服務端,支援分布式部署,滿足全國多機房實時資料收集彙總的管理平台,兼顧備災容錯,保證資料不錯不漏。自動識別伺服器和資料結構的差異,並自動優化配置。
(2)基於業務線的資料特點、計算任務的特性,自動化排程優先順序,智慧型調配計算資源。
(3)計算任務瓶頸的輔助分析工具,為研發、測試、建模等團隊提供**級的優化建議。
(5)在日常資料採集中,採集大量地理經緯度和poi資訊。對於這些資料,大資料平台會自動進行曲面幾何轉換後,再行儲存利用。
(6)利用多資料來源的整合和複雜資料結構的相容,全方位地分析和整理多維度的資料,對於業務決策給出有效支援。
(7)為方便資料建模團隊進行各種資料實驗和演算法模擬,大資料平台還提供了互動式的資料分析平台,支援資料建模團隊使用 r、sql、spark 指令碼等多種方式,進行實時的互動式資料分析和圖表展示。
(8)針對資料結構複雜、資料來源多的業務特點,設計了創新的訊息佇列架構,為多種渠道的資料來源對接,提供了實時和穩定的訊息收發支撐平台。
(9)構建了基於大資料的自動分析和建模體系,並在資料入庫前的清洗階段引入了虛假資料過濾模型(反作弊技術),模型可以動態自動學習和更新,從而在第一時間發現資料異常,並可以自動向各相關業務系統發出異常預警。
(10)在部署了該技術方案後,企業的業務能力的提公升了50%,特別it系統成本減少了超過20%,但效能提高了30%。
在部署本方案後, admaster實現了多個非常理想的指標:
(1)高併發資料採集服務端,單個採集節點可以支援12000次/秒的資料採集請求, 並且支援分布式部署,從而支援全國範圍的營銷資料採集服務。
(2)滿足全國 30 多機房實時資料收集彙總的管理平台,資料彙總延遲不超過 3 分鐘。
(3)採用訊息佇列架構,為多種渠道的資料來源對接,提供了實時和穩定的訊息收發支撐平台,系統間協作零延遲。
(4)支援資料建模團隊使用 r、sql、spark 指令碼等多種方式,進行實時的互動式資料分析和圖表展示。資料科學家和資料工程師可以同時使用同一平台同,同時處理上千億的資料。
(6)可以支援大量地理經緯度和poi資訊。對於這些資料,大資料平台會自動進行曲面幾何轉換後,再行儲存利用。
而本平台的實施過程中,我們也踩了無數的坑,下面列舉一二:
(1)由於很多開源平台(如 hadoop)不是為了這麼大的資料量而設計的,在資料量大到一定程度後,會出現各種詭異的問題,這時需要有精通源**的工程師來搞定詭異的問題。
(2)大資料時代,基礎 it 設施的建議更為重要:有很多次,我們的系統因為硬碟的突然故障和 dns 的解析而出現莫名其妙的的問題。
(3)時間同步,對於大資料平台來說,至關重要,平台在設計和使用時,一定要考慮時間可能不同步的問題。
網際網路營銷
網際網路營銷密碼 廣告費50 都浪費在哪?中國免費空間 網路營銷是個系統工程,如果不能有的放矢,營銷費用花出去便收不到相應的效果。什麼是卓有成效的網際網路營銷?1.品牌人格化 2.產品發力。我知道我的廣告費浪費了一半,但是卻不知道哪一半浪費了。奧美廣告創始人 帶著這些問題,記者專訪了重慶著名 人楊艾...
做網際網路的基因,網際網路營銷
觀察到越來越多的人給自己打上了 網際網路產品 標籤,好似一夜之間冒出來了這麼多搞產品的人。尤其那些 seo,ue,ui,ucd 從業人士,都紛紛改頭換面,以正其名。無論其是否名副其實,都說明了各公司已經在重視產品,重視創新。對於網際網路產品來說,越大眾化的產品,越沒有設計模式上的難度。最近領悟到的觀...
網際網路開放平台介紹
網際網路開放平台介紹 kezunhai gmail.com 隨著2005年網際網路巨頭google推出開放平台以來,開放平台就如雨後春筍,得到了迅猛的發展。所謂開放平台,就是首先提供乙個基本的服務,然後通過開放自身的介面,使得第三方開發者得以通過運用和組裝其介面以及其他第三方服務介面產生新的應用,並...