機器學習 (科學計算庫)1

2021-10-06 22:40:10 字數 932 閱讀 1891

資料決定了機器學習結果的上限,而演算法只是盡可能逼近這個上限。

1,機器學習是從資料中自動分析獲得模型,並利用模型對未知資料進行**。

機器學習工作流程總結:

1,獲取資料

2,資料基本處理

3,特徵工程

4,機器學習(模型訓練)

5,模型評估

資料簡介:

&&一行資料稱為乙個樣本

&&一列資料稱為乙個特徵

機器學習一般將資料集劃分為兩部分:

$訓練資料:用於訓練,構建模型

$測試資料:用於模型檢驗時使用,用於評估模型是否有效

劃分比例:

訓練集:70% 80% 75%

測試集:30% 20% 25%

2, 資料基本處理:即對數進行缺失值、去除異常值等處理

3,特徵工程

特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。

特徵工程包含內容:

*特徵提取

*特徵預處理

*特徵降維

特徵預處理:通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程。

4,完整機器學習專案的流程

&&&抽象成數學問題:明確可以獲得什麼樣的資料,抽象出的問題,是乙個分類還是回歸、聚類。

&&&獲取資料:資料要有代表性,否則必然會過擬合

&&&特徵預處理與特徵選擇

&&&訓練模型與調優

&&&模型診斷

&&&模型融合

&&&上線執行

5,機器學習演算法分類:

監督學習:輸入資料是由輸入特徵值和目標值所組成。

無監督學習:輸入資料是由輸入特徵值組成

輸入資料沒有被標記,也沒有確定的結果。樣本資料類別未知,需要根據樣本間的相似性對樣本集進行分類(聚類,clustering)試圖使類內差距最小化,類間差距最大化。

機器學習科學計算庫使用

設定大小 fig plt.figure figsize 20,8 dpi 80 長,寬 dpi 每英吋畫素,數值越大越清晰 匯入pyplot工具 import import matplotlib.pyplot as plt 設定大小,使用figure方法 plt.figure figsize 20 ...

資料科學之機器學習10 聚類分析1

note 聚類的劃分 根據分類物件的不同,可以分為 q型聚類分析和r型聚類分析。q型是指對樣品物件進行聚類 而r型則是對變數 屬性 進行聚類。一 相似性的度量 除了使用有序尺度變數 將屬性劃分為一級 二級等等的有次序關係的量來表示 和名義尺度變數 使用既沒有等級關係,又不存在數量關係的量來表示。比如...

科學計算 安裝GNU的開源科學計算庫gsl

gsl是gnu的乙個開源科學計算庫,c語言的。不過感覺使用人群小了點,最近一次更新是在2011年。gnu的專案有好多是費了的,純粹的開源不尋求商業途徑很難撐下去。下面是專案主頁 專案主頁 原始碼和其他開源的一樣,解壓後,輸入.confiure,make,make install。最後乙個一定要sud...