20180806 知識整理 大資料分析的道與術

2021-08-22 08:16:11 字數 2502 閱讀 5712

10大知識領域:

整合、範圍、進度、成本、質量、人力資源、溝通、風險、採購、干係人

商業模式:

1、很難說服使用者:圈定使用者範圍。

2、做讓使用者長臉的事情:跨年演講、高標準的選擇老師和課程

3、絕不給使用者丟臉:克制本能衝動、不輕易給產品打折、不是範圍內使用者的資源最好不要

4、從**戰到認知戰:**(比較中勝出),認知(不需要花時間做選擇,使用者感覺到還可以,***)

2、體系:高等級:硬實力(現場寫**、落地展現)、軟實力(一對多溝通講解)

3-1、積累經驗:更多知識點(好奇-觀察-構思)、更多技能落地(部落格、**實現github)

3-2、時刻準備:有狀態(滿血滿魔)、有基礎(有錢有兵)、有小目標(小規模、大場面)

3-3、重點落地:全域性視野(找關鍵+找針對)、評估(找大怪+找小怪)、經驗(找地方+找量級)

鍊錶中環路問題:

兩個人a和b在400公尺一圈的操場同向同時開始跑步,b的速度是a的兩倍,那麼a跑完一圈,b跑完兩圈,相遇成環。

第一次相遇:鍊錶有環,a不會跑完一圈就能和b相遇。

環長:相遇後再一次相遇,差值為環長。

進入環的起始點:a從起點開始跑,b從相遇的點開始跑,第一次相遇為環的起始點。

畢然-《大資料分析的道與術》

終極目標:興趣愛好和個人價值的共同實現。

目標實現的4個角色:產品經理(業務分析-資料分析)、資料分析師(資料分析-資料探勘)、策略工程師(資料探勘-機器學習)-研究員(機器學習-人工智慧)。

資料分析的優勢:

1、全域性理解:日常業務監控與分析、具體產品業務的專題分析。

2、方法和經驗的積累:多個產品業務、搭建資料系統(自動化報表-視覺化資料)、建設資料模型(通用/具體)

2-1、資料樣本:個案分析、異常分析、分組分析。

2-2、資料指標:分布分析、趨勢分析(平均值-週期)、因素分析[空間(採購-生成-銷售-資本)、時間(漏斗率-客戶量-轉化率)]。

資料分析的步驟:

2、特徵工程:人工設計特徵。最直接思路-例外(難以獲取、業界均有、企業獨有)。減少計算效能開銷、排除無效特徵干擾。

3、樣本處理:清洗和預處理資料。歸一化(0-1)。冷啟動(專家判斷),訓練與應用環境資料不同(保證樣本分佈一致性),小樣本/大樣本(小樣本擴充、修改代價矩陣)。

4、假設空間:資料建模:分布、均值、方差、相似度(歐式距離,余弦夾角)

5、優化目標:

6、尋解演算法:

7、學習理論:訓練樣本(產出模型)-驗證樣本(白盒-調整模型的引數)-測試樣本(黑盒-模型有效的概率)。

8、模型評估:業務評估。推進應用。對照組-實驗組(準確率-召回率)、可信度(基於概率)。

9、資料報告:拆解內容維度(5w1h)、確定圖形型別[餅圖(成分)-條形(排序-關聯)-柱狀(時間-頻率)-線形(時間-頻率)-散點(關聯)]、選擇表達方式(側重+突出目標)。

9-1、掌握業務狀態:追查指標波動、以核心指標做業務總結。

------細分樣本(分組分析)

------細分指標(因素分析):橫向(空間)拆解、縱向(時間)拆解

------改進產品策略(異常分析)

------週期規律(趨勢分析)

------諸多原因和佔比(個案分析)

------特徵差異(聚類分析)

------披露風險(模型**):將風險高的事情交給團隊處理

9-3、評估業務進展:新上線的產品策略、新推動的運營活動。

------業績提公升:同質對照組

------存在的問題和進一步優化:因素分析(漏斗率)、階段拆解

9-4、兩類方**:

一類:企業發展的兩種模式:1-改變經濟模式。針對長尾部分挖掘個性化的產品/服務。2-提公升業務效率。基於現有業務深度挖掘/分類/**。

二類:需求-業務-資料:需求(哪些是目標使用者群,需要什麼產品/服務,需要收集哪些資料)、業務(產品/服務)、資料(確認提供了想要的產品/服務,確認滿足了目標使用者群的需要)

10、侷限思考:突變的未來(異常分析),新增的業務(機器按照一套規則**,基於歷史資料進行知識表示和統計學習,機器不能主動去理解和思考,沒有自我意識),開發進度的不確定(由於資料分析步驟較多,選型複雜,軟體開發的效果和進度的預期不確定,需要過程中調整,策略+工程結合)。

機器學習概述:

無監督:聚類(k-means,k的選取-經驗+業務)、關聯規則(如果a則b的概率)

監督:線性回歸(連續),邏輯回歸(離散)、svm分類(核函式)、神經網路**(連續+離散)

深度:在機器學習的基礎上,無監督找到初始值和資料特徵,再用監督進行精準+置信+相關性的建模。涉及的領域有限:計算機視覺+自然語言處理+推薦系統。一般都會採用卷積神經網路(cnn)或迴圈神經網路(rnn)。

為什麼最後都是神經網路,而且更複雜?

1、符合自然規律。生物學上的神經系統,可以學習自然界任何事務。

2、好用有效。更複雜,代表了更精準、更置信、更具有相關性。

大資料資料整理

1.大資料概念 volume 大量 velocity 高速 variety 多樣 value 價值 veracity 真實性 大資料 是需要新處理模式才能具有更強的 決策力 洞察發現力和流程優化能力來適應海量 高增長率和多樣化的資訊 資產。2.資料庫和資料倉儲 設計 資料庫設計是盡量避免冗餘,一般採...

大資料相關知識

需要了解的內容 1.spark常用函式 transformation和action 2.spark中task的生成 spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。3.spark的job s...

大資料知識總結

同人工智慧一樣,在此簡單記錄一下大資料的重點。關聯規則 支援度 支援度揭示了a與b同時出現的概率 置信度 置信度揭示了a出現時,b是否也會出現或有多大概率出現 置信度計算 a b的置信度 的支援數 a的支援數 演算法過程 自己看 頻繁項集 對於乙個項集,它出現在若干事務中 演算法改進 事務壓縮 不包...