10大知識領域:
整合、範圍、進度、成本、質量、人力資源、溝通、風險、採購、干係人
商業模式:
1、很難說服使用者:圈定使用者範圍。
2、做讓使用者長臉的事情:跨年演講、高標準的選擇老師和課程
3、絕不給使用者丟臉:克制本能衝動、不輕易給產品打折、不是範圍內使用者的資源最好不要
4、從**戰到認知戰:**(比較中勝出),認知(不需要花時間做選擇,使用者感覺到還可以,***)
2、體系:高等級:硬實力(現場寫**、落地展現)、軟實力(一對多溝通講解)
3-1、積累經驗:更多知識點(好奇-觀察-構思)、更多技能落地(部落格、**實現github)
3-2、時刻準備:有狀態(滿血滿魔)、有基礎(有錢有兵)、有小目標(小規模、大場面)
3-3、重點落地:全域性視野(找關鍵+找針對)、評估(找大怪+找小怪)、經驗(找地方+找量級)
鍊錶中環路問題:
兩個人a和b在400公尺一圈的操場同向同時開始跑步,b的速度是a的兩倍,那麼a跑完一圈,b跑完兩圈,相遇成環。
第一次相遇:鍊錶有環,a不會跑完一圈就能和b相遇。
環長:相遇後再一次相遇,差值為環長。
進入環的起始點:a從起點開始跑,b從相遇的點開始跑,第一次相遇為環的起始點。
畢然-《大資料分析的道與術》
終極目標:興趣愛好和個人價值的共同實現。
目標實現的4個角色:產品經理(業務分析-資料分析)、資料分析師(資料分析-資料探勘)、策略工程師(資料探勘-機器學習)-研究員(機器學習-人工智慧)。
資料分析的優勢:
1、全域性理解:日常業務監控與分析、具體產品業務的專題分析。
2、方法和經驗的積累:多個產品業務、搭建資料系統(自動化報表-視覺化資料)、建設資料模型(通用/具體)
2-1、資料樣本:個案分析、異常分析、分組分析。
2-2、資料指標:分布分析、趨勢分析(平均值-週期)、因素分析[空間(採購-生成-銷售-資本)、時間(漏斗率-客戶量-轉化率)]。
資料分析的步驟:
2、特徵工程:人工設計特徵。最直接思路-例外(難以獲取、業界均有、企業獨有)。減少計算效能開銷、排除無效特徵干擾。
3、樣本處理:清洗和預處理資料。歸一化(0-1)。冷啟動(專家判斷),訓練與應用環境資料不同(保證樣本分佈一致性),小樣本/大樣本(小樣本擴充、修改代價矩陣)。
4、假設空間:資料建模:分布、均值、方差、相似度(歐式距離,余弦夾角)
5、優化目標:
6、尋解演算法:
7、學習理論:訓練樣本(產出模型)-驗證樣本(白盒-調整模型的引數)-測試樣本(黑盒-模型有效的概率)。
8、模型評估:業務評估。推進應用。對照組-實驗組(準確率-召回率)、可信度(基於概率)。
9、資料報告:拆解內容維度(5w1h)、確定圖形型別[餅圖(成分)-條形(排序-關聯)-柱狀(時間-頻率)-線形(時間-頻率)-散點(關聯)]、選擇表達方式(側重+突出目標)。
9-1、掌握業務狀態:追查指標波動、以核心指標做業務總結。
------細分樣本(分組分析)
------細分指標(因素分析):橫向(空間)拆解、縱向(時間)拆解
------改進產品策略(異常分析)
------週期規律(趨勢分析)
------諸多原因和佔比(個案分析)
------特徵差異(聚類分析)
------披露風險(模型**):將風險高的事情交給團隊處理
9-3、評估業務進展:新上線的產品策略、新推動的運營活動。
------業績提公升:同質對照組
------存在的問題和進一步優化:因素分析(漏斗率)、階段拆解
9-4、兩類方**:
一類:企業發展的兩種模式:1-改變經濟模式。針對長尾部分挖掘個性化的產品/服務。2-提公升業務效率。基於現有業務深度挖掘/分類/**。
二類:需求-業務-資料:需求(哪些是目標使用者群,需要什麼產品/服務,需要收集哪些資料)、業務(產品/服務)、資料(確認提供了想要的產品/服務,確認滿足了目標使用者群的需要)
10、侷限思考:突變的未來(異常分析),新增的業務(機器按照一套規則**,基於歷史資料進行知識表示和統計學習,機器不能主動去理解和思考,沒有自我意識),開發進度的不確定(由於資料分析步驟較多,選型複雜,軟體開發的效果和進度的預期不確定,需要過程中調整,策略+工程結合)。
機器學習概述:
無監督:聚類(k-means,k的選取-經驗+業務)、關聯規則(如果a則b的概率)
監督:線性回歸(連續),邏輯回歸(離散)、svm分類(核函式)、神經網路**(連續+離散)
深度:在機器學習的基礎上,無監督找到初始值和資料特徵,再用監督進行精準+置信+相關性的建模。涉及的領域有限:計算機視覺+自然語言處理+推薦系統。一般都會採用卷積神經網路(cnn)或迴圈神經網路(rnn)。
為什麼最後都是神經網路,而且更複雜?
1、符合自然規律。生物學上的神經系統,可以學習自然界任何事務。
2、好用有效。更複雜,代表了更精準、更置信、更具有相關性。
大資料資料整理
1.大資料概念 volume 大量 velocity 高速 variety 多樣 value 價值 veracity 真實性 大資料 是需要新處理模式才能具有更強的 決策力 洞察發現力和流程優化能力來適應海量 高增長率和多樣化的資訊 資產。2.資料庫和資料倉儲 設計 資料庫設計是盡量避免冗餘,一般採...
大資料相關知識
需要了解的內容 1.spark常用函式 transformation和action 2.spark中task的生成 spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。3.spark的job s...
大資料知識總結
同人工智慧一樣,在此簡單記錄一下大資料的重點。關聯規則 支援度 支援度揭示了a與b同時出現的概率 置信度 置信度揭示了a出現時,b是否也會出現或有多大概率出現 置信度計算 a b的置信度 的支援數 a的支援數 演算法過程 自己看 頻繁項集 對於乙個項集,它出現在若干事務中 演算法改進 事務壓縮 不包...