文章講的是艾瑞郝欣誠:用小演算法進行大資料分析,
2023年4月10-12日,第五屆中國資料庫技術大會在北京五洲皇冠國際酒店隆重舉行。本屆大會的主題為「大資料技術探索與價值發現」,參會規模達到1,800人。大會邀請近百位頂級技術專家和行業領袖分享資料庫與大資料技術的最新動態,及其在行業領域裡的應用部署和管理經驗。
自2023年以來,國內領先的it專業**it168聯合旗下itpub、chinaunix兩大技術社群,已經成功舉辦了四屆中國資料庫技術大會,每屆大會與會規模超過千人,是目前國內最受歡迎、人氣最高的的資料庫技術交流盛會。今年是中國資料庫技術大會五周年,大會將繼續秉承分享it最佳應用實踐的宗旨,結合傳統與創新,為與會者傳遞資料庫、大資料相關的技術和實踐。
▲郝欣誠:艾瑞諮詢集團技術副總裁
在大會第三天上午的「大資料價值發現」主場上,來自艾瑞諮詢集團技術副總裁郝欣誠先生為我們分享實用的使用者行為研究方法--小演算法進行大資料分析。
資料分析基礎知識普及
no.1:資料分析專案的成本收益
要進行資料分析,就是為了追求分析之後的價值,因此資料本身沒有固定價值,處理資料的過程存在成本,應用資料的收益決定價值。資料核算包括三個步驟,第一步資料成本核算(tco / mb),包括建設成本,軟硬it系統投入及年度維持、公升級成本;運營成本,資料來源成本及協調、分析、管理人員成本。第二步資料質量核算(tnr / mb),包括淨結果集含量,最低維度結果集行數和列數;淨結果準確率,準確率2.5倍率衰減。第三步資料回報率核算(roi / rmb),包括基準收益率 vs 優化收益率;基準收益規模 vs 優化收益規模。
郝欣誠表示,我們做乙個專案的時候,資料來源收集佔據了整個專案的30%的時間,隨後是資料預處理的三個階段,最後才能進行資料解讀,因此我們整個專案中90%的時間用來資料處理。
no.2:資料探勘的9大定律
no.3:統計方法四大維度
商業解決思路 大資料與小演算法
艾瑞諮詢對於乙個專案的執行過程是怎樣的呢?又是如何將小演算法進行到大資料分析過程中呢?郝欣誠表示,在大資料行業是沒有「黑天鵝」的,而且專案執行中「黑洞」還很多。隨後郝欣誠分享了艾瑞諮詢專案執行過程,內容分享很精彩,現場效果更精彩,且學且記錄。
郝欣誠最後表示,「通過這一項的專案執行過程,最終通過資料分析的方法,幫助使用者解決使用者需要解決的問題,在這些過程中黑洞很多,只有豐富的經驗才能更好的避免繞入其中,當然還有一些好的技術做支撐。」
大資料分析的十大技術
no.1:tms系統,行為分析專案利器
no.2:移動端html5及sdk資料支援
no.3:伺服器日誌最簡單也最難受
no.4:資料擴維提公升資料價效比
no.5:擴充套件reduce指令碼簡單實用
no.6:擴充套件reduce指令碼簡單實用
no.7:易學難精的文字挖掘
no.8:定製化分析專案如何驗證資料
no.9:資料模型對解讀資料的價值
no.10:視覺化工具對資料解讀的重要性
在最後郝欣誠表示,「在大資料時代,資料分析的結果只在乙個有規則的市場才有用,絕不能用在乙個領域的結論輕易用在其他領域,大資料時代,資料分析的價值會越來越重要。」每一年資料庫技術大會都是不一樣的內容,同樣的精彩,歡迎更多的資料庫達人來到大會現場與技術牛人面對面交流。