監督學習使用兩種型別的目標變數:
之所以稱監督學習,是因為這類演算法必須知道**什麼,即目標變數的分類資訊
在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類
將尋找描述資料統計值的過程稱之為密度估計
是 否要
預測目標
變數的值
是:監督學習→目標變數型別\begin離散型:分類演算法\\連續型:回歸演算法\end\\否:無監督學習→是否只需要將資料劃分為離散的組\begin是:聚類\\否:密度估計(還需要估計資料與每個分組的相似程度)\end\end
是否要**目
標變數的
值⎩⎪⎪
⎪⎪⎨⎪
⎪⎪⎪⎧
是:監
督學習→
目標變數
型別ne
wval
ue=m
ax−m
in(o
ldva
lue−
min)
import numpy,如果使用numpy的屬性都需要在前面加上numpy
from numpy import *,則不需要加入numpy
後者不建議使用,如果下次引用和numpy裡的函式一樣的情況,就會出現命名衝突。
mat(
)將陣列轉化為矩陣
.i 求矩陣的逆
eye(
4)建立4×4的單位矩陣
shape函式是numpy.core.fromnumeric中的函式,它的功能是讀取矩陣的長度,比如shape[
0]就是讀取矩陣第一維度的長度。
tile函式位於python模組 numpy.lib.shape_base中,他的功能是重複某個陣列。比如tile(a,n),功能是將陣列a重複n次,構成乙個新的陣列,numpy的 tile(
) 函式,就是將原矩陣橫向、縱向地複製。tile 是瓷磚的意思,顧名思義,這個函式就是把陣列像瓷磚一樣鋪展開來。
tile(a,r)
= tile(a,
2) 也可相當於tile(a,(1
,2))
.此時是對a進行一維(行向量方向即橫向)的複製擴充套件
tile(a,
(縱向複製次數,橫向複製次數)).
sum(
)函式是模組numpy的乙個函式:
預設axis為none,表示將所有元素的值相加,對於二維陣列,axis=
1表示按行相加 , axis=
0表示按列相加
.argsort函式返回的是陣列值從小到大的索引值,
>>
> x = np.array([3
,1,2
])>>
> np.argsort(x)
array([1
,2,0
])numpy.zeros(shape,dtype=
float,order =
'c')
shape:int 或 int 的元組,
dtype:資料型別,可選
order:,可選,預設:'c'
,是否在內容中以行(c)或列(f)順序儲存多維資料。x[:
,n]表示在全部陣列(維)中取第n個資料,直觀來說,x[
:,n]就是取所有集合的第n個資料, 第n列
x[n,
:]表示在n個陣列(維)中取全部資料,直觀來說,x[n,
:]就是取第n集合的所有資料, 第n行a[0
:3]: 取a的0到3
range() 函式可建立乙個整數列表,一般用在 for 迴圈中。
python 字典(dictionary) get() 函式返回指定鍵的值,如果值不在字典中返回預設值。
dict.get(key, default=none)
字典items() 作用:items()方法是將字典中的每個項分別做為元組,新增到乙個列表中,形成了乙個新的列表容器
operator.itemgetter函式
operator模組提供的itemgetter函式用於獲取物件的哪些維的資料,引數為一些序號(即需要獲取的資料在物件中的序號)python內建的排序函式sorted可以對list或者iterator進行排序
檔案讀取
.read() 每次讀取整個檔案,它通常用於將檔案內容放到乙個字串變數中。
.readline() 每次只讀取一行
.readlines() 自動將檔案內容分析成乙個行的列表,該列表可以由 python 的 for ... in ... 結構進行處理。
strip() 方法用於移除字串頭尾指定的字元(預設為空格或換行符)或字串行。
print格式化輸出
.add_subplot(111) #把畫布分為1行1列,area為從左往右從上往下第1塊區域
scatter是畫散點圖,常用引數有x,y,s(size),c(color),marker
矩陣與陣列的區別 機器學習實戰讀書筆記(三)
從本節開始,將介紹無監督學習。今天整理了無監督學習中的k均值聚類演算法和mapreduce部分的內容。本部分是8月24號的內容。9.k均值聚類演算法 1 k均值聚類演算法 優點 易於實現。缺點 可能收斂到區域性最小值,在大規模的資料集上的收斂速度慢。適用資料型別 數值型。可以用的誤差指標如誤差的平方...
《機器學習實戰》讀書筆記 1
本人開發工具為pycharm,python版本是3.5 第二章 knn 2.1 概述 k 緊鄰演算法的一般流程 收集資料 可以使用任何方法 準備資料 距離計算所需要的數值,最好是結構化的資料格式 分子資料 可以使用任何方法 訓練資料 此步驟不適應於k 緊鄰演算法 測試資料 計算錯誤率 使用演算法 首...
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...