1、pandas庫的操作
panda是資料分析特別重要的乙個庫,我們要掌握以下三點:
pandas 分組計算;
pandas 索引與多重索引;
索引比較難,但是卻是非常重要的
pandas 多表操作與資料透視表
2、numpy數值計算
numpy程式設計客棧資料計算主要應用是在資料探勘,對於以後的機器學習,深度學習,這也是乙個必須掌握的庫,我們要掌握以下內容:
numpy array理解;
陣列索引操作;
陣列計算;
broadcasting(線性代數裡面的知識)
3、資料視覺化-matplotlib與seaborn
matplotib語法
python最基本的視覺化工具就是matplotlib。咋一看matplotlib與matlib有點像,要搞清楚二者的關係是什麼,這樣學習起來才會比較輕鬆。
seaborn的使用
seaborn是乙個非常漂亮的視覺化工具。
pandas繪圖功能
前面說過pandas是做資料分析的,但它也提供了一些繪圖的api。
4、資料探勘入門
這部分是最難也是最有意思的一部分,要掌握以下幾個部分:
機器學習的定義
在這裡跟資料探勘先不做區別
代價函式的定義
train/test/validate
overfitting的定義與避免程式設計客棧方法
5、資料探勘演算法
資料探勘發展到現在,演算法已經非常多,下面只需掌握最簡單的,最核心的,最常用的演算法:
最小二乘演算法;
梯度下降;
向量化;
極大似然估計;
logistic r程式設計客棧egression;
decision tree;
randomforesr;
xgboost;
6、資料探勘實戰
通過機器學習裡面最著名的庫scikit-learn來進行模型的理解。
本文標題: python資料探勘需要學的內容
本文位址: /jiaoben/python/263189.html
透過資料探勘學python
1.svm support vector machine 是機器學習中為二分類而設計的一種演算法,旨在找到乙個最佳的分離超平面的分離器,使得資料集上的正負樣本間隔最大。簡單例子如下 x 2,0 1,1 2,3 三個點 y 0,0,1 三個點對應的特徵值 clf svm.svc kernel line...
大資料需要學什麼
一般處理t 1資料,這裡的t可以代表一天,一周 乙個月以及一年等。這裡我用的hadoop的版本是hadoop 2.x,它有四個模組 common hdfs mapreduce yarn 下面是hadoop的四個模組的詳細介紹 模組介紹 hadoop common 支援其他模組的工具模組 hadoop...
學python要什麼 學習python需要什麼基礎
學習python需要什麼基礎?書聲琅琅培訓老師介紹,python語言現在很流行,幾年都霸佔著it常用語言的前三,應用非常廣泛,特別是現在社會主推人工智慧,大資料,而對這些需求比較好的語言就是python,對於小白來講,想知道python學習難不難,學習python需要什麼基礎,今天跟大家來聊下這個話...