pyhton機器學習入門基礎(機器學習與決策樹)

2022-10-11 06:00:11 字數 2267 閱讀 4386

#scikit-learn資料探勘工具包

1、scikit learn是基於python的資料探勘和機器學習的工具包

,方便實現資料的資料分析與高階操作,是資料分析裡面非常重要的工具包。

2、scikit learn是資料探勘重要的工具包,其官網為可以方便地進行進行相關用法的查詢。

3、scikit-learn是一種開源的工具包,其開源**為

#機器學習和決策樹(machine learning and decision tree)

4、機器學習實質是一種函式對映,它是基於人類學習的習慣和模式進行相關的學習、總結和**的,其輸出結果取決於以往的經驗,而這裡的經驗就是指以往的資料,它是機器學習的基礎,而具體結果的準確度主要取決於兩個方面:乙個是以往的資料,另外乙個則是指機器學習演算法的準確性,其中機器學習的演算法是核心的部分。

5、機器學習是一種函式關係,因此它必定含有相應的輸入因子和輸出結果,根據輸出結果的類別可以分為以下幾類:

(1)對結果不打標記,則稱之為聚類演算法,比如對於植物的分類演算法,這個機器學習就是無監督學習;

(2)對結果打標記的演算法則稱之為監督學習

,比如對於郵件是否為垃圾郵件的判斷和決定。而對於監督機器學習演算法,也可以根據其結果的離散與連續將其分為分類(結果有限離散)和回歸(結果是連續的)

6、決策樹是一種機器學習演算法,它屬於機器學習演算法中的監督學習演算法,是一類對於結果有標記的機器學習演算法;

7、決策樹是一種樹狀結構的演算法,它是根據結果的不同進行多層多屬性分類決策,而對於每一層的資料屬性和優先順序的決定定義原則與演算法原理則是不同決策樹演算法的不同之處,比較典型的演算法決策因素有資訊熵、資訊增益等

該函式是指決策樹演算法的分層依據為資訊熵函式定義(越小越好)

8、機器學習演算法的過程實現整體的框架主要分為三個步驟:資料預處理、資料建模以及結果驗證。

9、簡單決策樹的實現:

import numpy as np

import pandas as pd

#引入原始資料,進行資料的預處理

from sklearn.datasets import load_iris #匯入iris原始資料集合

iris=load_iris()

print(iris)

print(len(iris["data"]))

from sklearn.model_selection import train_test_split #引入資料訓練與檢驗模組

train_data,test_data, train_target, test_target=train_test_split(iris.data,iris.target,test_size=0.2,random_state=1)

#建立資料的模型和相應的決策樹結構

from sklearn import tree #引入決策樹模組

clf=tree.decisiontreeclassifier(criterion="entropy") #建立乙個分類性質的決策樹(標準選擇為資訊熵增益)

clf.fit(train_data,train_target) #進行原始資料的訓練

y_pred=clf.predict(test_data) #進行資料集的測試

#資料驗證

from sklearn import metrics #引入機器學習的驗證模組

print(metrics.accuracy_score(y_true=test_target,y_pred=y_pred)) #輸出整體**結果的準確率,其中第三個引數normalize=false表示輸出結果**正確的個數

print(metrics.confusion_matrix(y_true=test_target,y_pred=y_pred)) #輸出混淆矩陣,如果為對角陣,則表示**結果是正確的,準確度越大

機器學習入門基礎

一,什麼是人工智慧 人工智慧 artificial intelligence 英文縮寫為 ai。它是研究使計算機來模擬人的某些思維過程和智慧型 行為 如學習 推理 思考 規劃等 的學科,主要包括計算機實現智慧型的原理 製造類似於人腦智慧型的計算機,使計算機能實現更高層次的應用。人工智慧將涉及到電腦科...

機器學習 入門基礎

對於kaggle中machine learning course和learn pandas的學習筆記 intro to data structures pandas kaggle course creating,reading,and writing reference 十分鐘的 pandas 入門...

機器學習 MATLAB基礎(入門)

format 顯示格式關鍵字 含義clc 清除命令視窗的顯示內容 clear 清除matlab工作空間中儲存的變數 who或whos 顯示matlab工作空間中的變數資訊 dir顯示當前工作目錄的檔案和子目錄清單 cd顯示或設定當前工作目錄 type 顯示指定m檔案的內容 help或doc quit...