sklearn.feature_selection.variancethreshold
variancethreshold(threshold = 0.0)
刪除所有低方差特徵
variance.fit_transform(x,y)
x:numpy array格式的資料[n_samples,n_features]
返回值:訓練集差異低於threshold的特徵將被刪除。
預設值是保留所有非零方差特徵,即刪除所有樣本
中具有相同值的特徵。
流程:1初始化variancethreshold,指定閥值方差
2呼叫fit_transform
sklearn. decomposition
本質:pca是一種分析、簡化資料集的技術
目的:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊。
作用:可以削減回歸分析或者聚類分析中特徵的數量
pca語法
pca(n_components=none)
將資料分解為較低維數空間
pca.fit_transform(x)
x:numpy array格式的資料[n_samples,n_features]
返回值:轉換後指定維度的array
(1)演算法是核心,資料和計算是基礎
(2)找準定位
大部分複雜模型的演算法設計都是演算法工程師在做,而我們
分析很多的資料
分析具體的業務
應用常見的演算法
特徵工程、調引數、優化
我們應該怎麼做
學會分析問題,使用機器學習演算法的目的,想要演算法完成何種任務
掌握演算法基本思想,學會對問題用相應的演算法解決
學會利用庫或者框架解決問題
定義:通過一種對映關係將輸入值到輸出值
分類 k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路
回歸 線性回歸、嶺回歸
標註 隱馬爾可夫模型
監督學習(英語:supervised learning),可以由輸入資料中學
到或建立乙個模型,並依此模式推測新的結果。輸入資料是由
輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值
(稱為回歸),或是輸出是有限個離散值(稱作分類)。
分類問題
概念:分類是監督學習的乙個核心問題,在監督學習中,當輸出變數取有限個離散值時,**問題變成為分類問題。最基礎的便是二分類問題,即判斷是非,從兩個類別中選擇乙個作為**結果;
回歸問題
概念:回歸是監督學習的另乙個重要問題。回歸用於**輸入變數和輸出變數之間的關係,輸出是連續型的值。
聚類 k-means
無監督學習(英語:supervised learning),可以由輸入資料中
學到或建立乙個模型,並依此模式推測新的結果。輸入資料是
由輸入特徵值所組成。
機器學習一般的資料集會劃分為兩個部分:
訓練資料:用於訓練,構建模型
測試資料:在模型檢驗時使用,用於評估模型是否有效
sklearn.model_selection.train_test_split
sklearn.datasets
載入獲取流行資料集
datasets.load_*()
獲取小規模資料集,資料報含在datasets裡
load和fetch返回的資料型別datasets.base.bunch(字典格式)
data:特徵資料陣列,是 [n_samples * n_features] 的二維
numpy.ndarray 陣列
target:標籤陣列,是 n_samples 的一維 numpy.ndarray 陣列
descr:資料描述
feature_names:特徵名,新聞資料,手寫數字、回歸資料集沒有
target_names:標籤名,回歸資料集沒有
sklearn.datasets.load_iris()
載入並返回鳶尾花資料集
sklearn.datasets.load_digits()
載入並返回數字資料集
sklearn.model_selection.train_test_split(*arrays, **options)
x 資料集的特徵值
y 資料集的標籤值
test_size 測試集的大小,一般為float
random_state 隨機數種子,不同的種子會造成不同的隨機
取樣結果。相同的種子取樣結果相同。
return 訓練集特徵值,測試集特徵值,訓練標籤,測試標籤
(預設隨機取)
用於分類的大資料集
sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)
subset: 『train』或者』test』,『all』,可選,選擇要載入的資料集.
訓練集的「訓練」,測試集的「測試」,兩者的「全部」
datasets.clear_data_home(data_home=none)
清除目錄下的資料
sklearn.datasets.load_boston()
載入並返回波士頓房價資料集
sklearn.datasets.load_diabetes()
載入和返回糖尿病資料集
在sklearn中,估計器(estimator)是乙個重要的角色,分類器和回歸器都屬於estimator,是一類實現了演算法的api
1、用於分類的估計器:
sklearn.neighbors k-近鄰演算法
sklearn.*****_bayes 貝葉斯
sklearn.linear_model.logisticregression 邏輯回歸
2、用於回歸的估計器:
sklearn.linear_model.linearregression 線性回歸
sklearn.linear_model.ridge 嶺回歸
機器學習基礎DAY2
1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...
機器學習 day2
歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...
機器學習Day2
英文原鏈結源鏈結 假設 x和y是線性相關的 則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線?通過最小化 值和觀測值的均方差 導入庫 匯入資料集 檢查缺失資料 分離訓練集和測試集 特徵縮放 從sklearn.linear model中匯入linearreg...