《機器學習實戰》讀書筆記

2021-09-26 07:39:33 字數 2470 閱讀 9586

監督學習使用兩種型別的目標變數:

之所以稱監督學習,是因為這類演算法必須知道**什麼,即目標變數的分類資訊

在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類

將尋找描述資料統計值的過程稱之為密度估計

是 否要

預測目標

變數的值

是:監督學習→目標變數型別\begin離散型:分類演算法\\連續型:回歸演算法\end\\否:無監督學習→是否只需要將資料劃分為離散的組\begin是:聚類\\否:密度估計(還需要估計資料與每個分組的相似程度)\end\end

是否要**目

標變數的

值⎩⎪⎪

⎪⎪⎨⎪

⎪⎪⎪⎧

​是:監

督學習→

目標變數

型別ne

wval

ue=m

ax−m

in(o

ldva

lue−

min)

​import numpy,如果使用numpy的屬性都需要在前面加上numpy

from numpy import *,則不需要加入numpy

後者不建議使用,如果下次引用和numpy裡的函式一樣的情況,就會出現命名衝突。

mat(

)將陣列轉化為矩陣

.i 求矩陣的逆

eye(

4)建立4×4的單位矩陣

shape函式是numpy.core.fromnumeric中的函式,它的功能是讀取矩陣的長度,比如shape[

0]就是讀取矩陣第一維度的長度。

tile函式位於python模組 numpy.lib.shape_base中,他的功能是重複某個陣列。比如tile(a,n),功能是將陣列a重複n次,構成乙個新的陣列,numpy的 tile(

) 函式,就是將原矩陣橫向、縱向地複製。tile 是瓷磚的意思,顧名思義,這個函式就是把陣列像瓷磚一樣鋪展開來。

tile(a,r)

= tile(a,

2) 也可相當於tile(a,(1

,2))

.此時是對a進行一維(行向量方向即橫向)的複製擴充套件

tile(a,

(縱向複製次數,橫向複製次數)).

sum(

)函式是模組numpy的乙個函式:

預設axis為none,表示將所有元素的值相加,對於二維陣列,axis=

1表示按行相加 , axis=

0表示按列相加

.argsort函式返回的是陣列值從小到大的索引值,

>>

> x = np.array([3

,1,2

])>>

> np.argsort(x)

array([1

,2,0

])numpy.zeros(shape,dtype=

float,order =

'c')

shape:int 或 int 的元組,

dtype:資料型別,可選

order:,可選,預設:'c'

,是否在內容中以行(c)或列(f)順序儲存多維資料。x[:

,n]表示在全部陣列(維)中取第n個資料,直觀來說,x[

:,n]就是取所有集合的第n個資料, 第n列

x[n,

:]表示在n個陣列(維)中取全部資料,直觀來說,x[n,

:]就是取第n集合的所有資料, 第n行a[0

:3]: 取a的0到3

range() 函式可建立乙個整數列表,一般用在 for 迴圈中。

python 字典(dictionary) get() 函式返回指定鍵的值,如果值不在字典中返回預設值。

dict.get(key, default=none)

字典items() 作用:items()方法是將字典中的每個項分別做為元組,新增到乙個列表中,形成了乙個新的列表容器

operator.itemgetter函式

operator模組提供的itemgetter函式用於獲取物件的哪些維的資料,引數為一些序號(即需要獲取的資料在物件中的序號)python內建的排序函式sorted可以對list或者iterator進行排序

檔案讀取

.read() 每次讀取整個檔案,它通常用於將檔案內容放到乙個字串變數中。

.readline() 每次只讀取一行

.readlines() 自動將檔案內容分析成乙個行的列表,該列表可以由 python 的 for ... in ... 結構進行處理。

strip() 方法用於移除字串頭尾指定的字元(預設為空格或換行符)或字串行。

print格式化輸出

.add_subplot(111)		#把畫布分為1行1列,area為從左往右從上往下第1塊區域

scatter是畫散點圖,常用引數有x,y,s(size),c(color),marker

矩陣與陣列的區別

機器學習實戰讀書筆記(三)

從本節開始,將介紹無監督學習。今天整理了無監督學習中的k均值聚類演算法和mapreduce部分的內容。本部分是8月24號的內容。9.k均值聚類演算法 1 k均值聚類演算法 優點 易於實現。缺點 可能收斂到區域性最小值,在大規模的資料集上的收斂速度慢。適用資料型別 數值型。可以用的誤差指標如誤差的平方...

《機器學習實戰》讀書筆記 1

本人開發工具為pycharm,python版本是3.5 第二章 knn 2.1 概述 k 緊鄰演算法的一般流程 收集資料 可以使用任何方法 準備資料 距離計算所需要的數值,最好是結構化的資料格式 分子資料 可以使用任何方法 訓練資料 此步驟不適應於k 緊鄰演算法 測試資料 計算錯誤率 使用演算法 首...

機器學習讀書筆記

第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...