sklearn學習筆記之開始

2021-09-24 09:25:18 字數 936 閱讀 7321

自2023年發布以來,scikit-learn已經成為python重要的機器學習庫了。scikit-learn簡稱sklearn,支援包括分類、回歸、降維和聚類四大機器學習演算法。還包含了特徵提取、資料處理和模型評估三大模組。

sklearn是scipy的擴充套件,建立在numpy和matplotlib庫的基礎上。利用這幾大模組的優勢,可以大大提高機器學習的效率。

sklearn擁有著完善的文件,上手容易,具有著豐富的api,在學術界頗受歡迎。sklearn已經封裝了大量的機器學習演算法,包括libsvm和libinear。同時sklearn內建了大量資料集,節省了獲取和整理資料集的時間。

機器學習基礎

定義:針對經驗e和一系列的任務t和一定表現的衡量p,如果隨著經驗e的積累,針對定義好的任務t可以提高表現p,就說明機器具有學習能力。

sklearn安裝

sklearn目前的版本是0.17.1,可以使用pip安裝。在安裝時需要進行包依賴檢查,具體有以下幾個要求:

如果滿足上述條件,就能使用pip進行安裝了:

1 pip install -u scikit-learn
當然,使用pip安裝會比較麻煩,推薦使用anaconda科學計算環境,裡面已經內建了numpy、scipy、sklearn等模組,直接可用。或者使用conda進行包管理。conda安裝與pip類似:

1  conda install scikit-learn
安裝完sklearn以後,可以檢查以下版本:

1  >>> import sklearn

2 >>> sklearn.__version__

3 '0.17.1'

sklearn學習筆記之preprocessing

官方文件位址 這個模組的主要內容是資料的預處理 binarizersklearn.preprocessing.binarizer threshold 0.0,copy true 作用 將資料進行二值化,若是特徵值 feature value 大於閾值 threshold 則將特徵值賦值為1否則為0 ...

sklearn學習筆記之嶺回歸

嶺回歸是一種專用於共線性資料分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分資訊 降低精度為代價獲得回歸係數更為符合實際 更可靠的回歸方法,對病態資料的擬合要強於最小二乘法。乙個簡單的例子 from sklearn.linear model impor...

sklearn學習筆記

1.波士頓房價線性回歸模型 from sklearn import datasets from sklearn.linear model import linearregression boston datasets.load boston data x boston.data y boston.t...