1、資料探勘能夠解決什麼樣的問題?
資料探勘可以實現分類,聚類,關聯和**,從而將商業運營問題轉化為大資料探勘問題
2、常見的分類方法
決策樹、貝葉斯、knn、支援向量機、神經網路和邏輯回歸等
3、常見的聚類演算法
例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等
4、常見的關聯分析演算法
aprior演算法、carma演算法,序列演算法等
5、常見的**演算法
簡單線性回歸分析、多重線性回歸分析、時間序列等
6、實現資料探勘的工具
第一層級:達到理解入門層次,了解統計學和資料庫即可。
第二層級:達到初級職場應用層次,資料庫+統計學+spss(也可以是spss代替軟體)
第三層級:達到中級職場應用層次,sas或r
第四層級:達到資料探勘師層次,sas或r+python(或其他程式語言)
7、用python學習大資料探勘
(1)pandas庫的操作
panda是資料分析特別重要的乙個庫,我們要掌握以下三點:
pandas 分組計算;
pandas 索引與多重索引;
索引比較難,但是卻是非常重要的
pandas 多表操作與資料透視表
(2)numpy數值計算
numpy資料計算主要應用是在資料探勘,對於以後的機器學習,深度學習,這也是乙個必須掌握的庫,我們要掌握以下內容:
numpy array理解;
陣列索引操作;
陣列計算;
broadcasting(線性代數裡面的知識)
(3)資料視覺化-matplotlib與seaborn
matplotib語法
python最基本的視覺化工具就是matplotlib。咋一看matplotlib與matlib有點像,要搞清楚二者的關係是什麼,這樣學習起來才會比較輕鬆。
seaborn的使用
seaborn是乙個非常漂亮的視覺化工具
pandas繪圖功能
前面說過pandas是做資料分析的,但它也提供了一些繪圖的api。
(4)資料探勘入門
這部分是最難也是最有意思的一部分,要掌握以下幾個部分:
機器學習的定義
在這裡跟資料探勘先不做區別
代價函式的定義
train/test/validate
overfitting的定義與避免方法
(5)資料探勘演算法
資料探勘發展到現在,演算法已經非常多,下面只需掌握最簡單的,最核心的,最常用的演算法:
最小二乘演算法;
梯度下降;
向量化;
極大似然估計;
logistic regression;
decision tree;
randomforesr;
xgboost;
(6)資料探勘實戰
通過機器學習裡面最著名的庫scikit-learn來進行模型的理解。
基礎動態規劃第一課
今天資訊學瀟湘館第一次開張,館主也挺高興的,館主其實也是只蒟蒻,寫部落格只是為了與大家分享收穫並反思總結,以後還望大家多關注我資訊學瀟湘館哦,好了,閒話少說,進入正題!動態規劃這一章節對於很多入門的oier有點苦惱,但是熟練後就會比較輕鬆,當然不是一節課能講清楚地,想博主當年可是花了老大的盡呢,動態...
機器學習第一課
過擬合就是,通過訓練集進行訓練的時候,模型學習了太多的背景雜訊,讓模型的複雜度高於了真實模型 比如看到齒距型的葉子,就覺得不是葉子 欠擬合是指,模型在訓練集上進行學習的時候,效果就不是很好,沒有充分學習到其中的資訊量,複雜度低於真實模型,得到的模型泛化能力差 比如看到綠色,就覺得是葉子 模型評估指標...
python學習第一課
1.單行注釋 2.或 多行注釋運算子的型別運算子的優先順序運算子tips 參考變數型別 算術運算子 print 1 1 2,加 print 2 1 1,減 print 3 4 12,乘 print 3 4 0.75,除 print 3 4 0,整除 地板除 print 3 4 3,取餘 print ...