看周志華《機器學習》的第1,2章,了解分類、交叉驗證、分類精度、檢驗等概念
分類:**的是離散值
1.[classify;assort]
按照種類、等級或性質分別歸類。
2.把無規律的事物分為有規律的,按照不同的特點劃分事物,使事物更有規律。
3.建立生物類別的分級系統的實踐,其基礎是推測生物間存在著一些自然關係。
生物分類
的科學一般稱為
分類學(taxonomy)。
交叉驗證:
交叉驗證(
cross validation
),有的時候也稱作迴圈估計(
rotationestimation
),是一種統計學上將資料樣本切割成較小子集的實用方法,該理論是由
seymour geisser
提出的。
在給定的建模樣本中,拿出大部分樣本進行建模型,留小部分樣本用剛建立的模型進行預報,並求這小部分樣本的預報誤差,記錄它們的平方加和。這個過程一直進行,直到所有的樣本都被預報了一次而且僅被預報一次。把每個樣本的預報誤差平方加和,稱為
press(predictederror sum of squares)
。分類精度:
檢驗:校驗(
ecc)是資料傳送時採用的一種校正資料錯誤的一種方式,分為奇校驗和偶校驗兩種。
1.1表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間。
資料集是有三個特徵,分別是色澤,根蒂,敲聲來判斷是否是好瓜。
只有1,4可得 色澤青綠,根蒂蜷縮,敲聲濁響是好瓜;色澤烏黑,根蒂稍蜷,敲聲沉悶不是好瓜。三個特徵值排列組合得到的集合共有3*3*3=27後再加上空集情況為28種集合。
色澤=青綠 根蒂=蜷縮 敲聲=濁響
色澤=青綠 根蒂=蜷縮 敲聲=泛化取值
色澤=青綠 根蒂=泛化取值 敲聲=濁響
色澤=泛化取值 根蒂=蜷縮 敲聲=濁響
色澤=青綠 根蒂=泛化取值 敲聲=泛化取值
色澤=泛化取值 根蒂=蜷縮 敲聲=泛化取值
色澤=泛化取值 根蒂=泛化取值 敲聲=濁響
(1)資料應包含豐富的屬性資訊,應具備可靠性和穩定性;
(2)資料的屬性應具有對於分類任務的相關性。大多數的分類任務只與資料庫中部分屬性有關,多餘的、無關的屬性介入分類,常會減慢甚至錯誤引導分類過程,應此必須去掉無關屬性。
(3)資料應具有高層資料資訊,以發現清晰的、高層的、具有統計意義的分類規則。在本文的研究中,為了使資料環境達到上述要求,在資料準備階段採用了資料泛化的策略,這個策略用概念層次作為背景,結合了olap技術與jiawei han等人的面向屬性歸納的方法,明顯提高了工作效率。
1.2與使用單個合取式來進行假設表示相比,使用「析合正規化」將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。
因為使用的是1.1中西瓜分類的假設空間,所以這就有了4個樣例,每個樣例有3個特徵值。所以得到3*4*4=48後加上空集泛化得到49種。
C 學習第一天 開始
由於c 和c在基礎部分基本差不多,所以只記錄一些c 的不同點。1 main函式的返回值必須是int。2 io的標準庫為 iostream庫。即在程式頭上呼叫 include3 io 標準輸入 cin 標準輸出 cout 標準錯誤 cerr 用來輸出警告和錯誤訊息 clog 用來輸出程式的一般性資訊 ...
機器學習第一天
1.人工智慧在現實生活的應用 計算機 電子商務 案列 2.人工智慧的三要素 資料 演算法 計算力 3.cpu和gpu的對比 cpu主要適合i o密集型的任務 gpu主要適合計算密集型任務 什麼型別的程式適合在gpu上執行 計算密集型的程式 易於並行的程式 4.人工智慧 機器學習 深度學習 機器學習是...
機器學習 第一天
機器學習是用機器學習演算法來建立模型,當有新的資料過來時,可以通過模型來進行 機器學習前期主要靠符號學習,從前期的符號學習轉到最近的統計分析。很多科學家在科研方向思考的問題是電腦怎麼像人一樣去思考。人類的學習思考是依靠於過往的經驗,從過去的經驗中總結出背後的邏輯與規律,然後用這些知識去應對新的問題。...