主要概念
能力延伸
在本系列中所談及的資料分析主要是指比較基礎常見的技術操作,以及與文字挖掘、自然語言處理等的交叉部分;能力延伸部分是本人近日在準備春招過程中,參照不同企業的招聘需求和筆試題列舉出的部分考查點。疏漏之處請各位大佬指出。
這系列的第一篇是作為字典使用的,總結本系列**現的基礎模型和主要概念。既方便新手從全域性去學習這個系列,也方便老司機對照下可能需要補充的能力。
暫時就想到這些,有時看到新的東西會不定期更新。業務調研之前在知乎發過 另一篇 ,可以相互對照參考下。
準備資料
2.1 資料抽樣
2.2 資料過濾
2.3 資料預處理
瀏覽資料
3.1 視覺化
3.2 聚類
3.3 關聯分析
變數選擇
4.1 特徵工程:確定自變數
4.2 根據分析的目標確定因變數
定義/發現模型
5.1 分類
5.2 回歸
5.3 聚類
計算模型引數
6.1 擬合模型
6.2 遍歷引數
模式評估與解釋
7.1 評估指標
7.2 解釋模型引數
7.3 測試與驗證
業務調研
準備文字/獲取語料
2.1 標準開放公開測試資料集
2.2 爬蟲抓取
2.3 文字預處理
瀏覽資料
構造文字特徵
4.1 詞袋表示
4.2 詞向量表示/詞嵌入
文字特徵處理
5.1 特徵選擇
5.2 特徵降維
發現模式/模型訓練
6.1 文字分類
6.2 文字聚類
6.3 主題分析
6.4 情感分析
模型評估與解釋
7.1 評估指標
7.2 解釋模型引數
7.3 測試與驗證
python資料分析與演算法之一 基本概念
如何形象化的理解演算法?意義 什麼是演算法分析?引例 a b c 1000 a 2 b 2 c 2 a,b,c均為自然數 求出a,b,c可能的組合?法一 for a in range 0,1001 for b in range 0,1001 for c in range 0,1001 if a b ...
資料分析實戰(6 7) 資料分析 使用者畫像基本概念
商業智慧型 bi 資料倉儲 dw 資料探勘 dm 三者之間的關係開頭中的百貨商店利用資料 使用者購物行為屬於商業智慧型,他們積累的顧客的消費行為習慣會儲存在資料倉儲中,通過對個體進行消費行為分析總結出來的規律屬於資料探勘。如果說網際網路的上半場是粗狂運營,因為有流量紅利不需要考慮細節。那麼在下半場,...
資料分析模型總結
1.邏輯回歸 from sklearn.linear model import logisticregression clf logisticregression penalty l1 solver saga tol 0.1,c 0.1,random state 0 clf.fit x train ...