資料集(data set)
記錄的集合,假如我們用3個特徵,分別為色澤,根蒂,響聲來描述西瓜的特點,並且拿到了基於這3個特徵的10萬條記錄,其中一條記錄的取值為:
色澤=光亮,根蒂=堅硬,響聲=清亮
每條記錄是關於乙個事件或物件的描述,也稱為樣本,比如以上其中一條記錄
色澤=光亮,根蒂=堅硬,響聲=清亮這個看做是乙個例項
反映事件或物件在某方面的表現或性質的事項,例如色澤,根蒂,響聲等,又稱為特徵(feature)。
屬性上的取值,如青綠,濁響等,稱為屬性值(attribute value)。
(hypothetical space),它是理論上的所有可能屬性值構成的集合空間。
假如將色澤,根蒂,敲聲三個屬性作為三個座標軸x1, x2, x3,每個西瓜對應乙個空間點(乙個座標向量),每個這種示例稱為乙個特徵向量,記為
每個示例包含的屬性個數,如上文中提到的描述西瓜的3個特徵色澤,根蒂,響聲,這個10萬行的資料集的維數是3,這是機器學習中需要理解的重要概念。
從資料中學得模型的過程,又稱為訓練(training)。正如上文所示,10萬條西瓜資料集,根據它的三個特徵,和每條特徵的標記,經過計算最後得到了乙個 f,通過這個 f 我們能**第1萬零乙個西瓜是否是好瓜,這個過程被稱為學習。
訓練過程中使用的資料,其中每個樣本稱為乙個訓練樣本(training sample),訓練樣本組成的集合稱為訓練集(training set)。通過這些訓練資料通過學習,最終得出乙個f,也就是我們學到的模型。與之相對應的是測試資料,為了測試通過訓練資料得到的f準確度能高不高,我們特意預留出一些資料用來專門測試用,這部分資料就被稱為測試資料。
如果我們要**的是離散值,等於0,1,2,3等這類離散值,例如 好瓜,壞瓜,稱此類學習任務為分類。如果分類的結果為兩類,又稱此分類為二分類,通常稱其中乙個為正類(positive class),另乙個為反類(negative class)。它還有乙個很奇怪的名字,叫邏輯回歸,雖然是帶著回歸二字,實際是分類,注意此處。
沒有標記的記錄集,並且我們還想學習這類資料集,比如想從裡頭挖出點有用的東西來。然後我們根據某些特徵和演算法將訓練中的西瓜分成若干組,自動形成了幾簇,這些簇可能對應一些潛在的概念,比如淺色瓜,深色瓜,本地瓜,這些概念我們都是事先不知道的。聚類的常用的演算法自己查閱吧,資料有很多:無監督學習
第一節 PDM的概念
第一節 pdm的概念 如果說60年代製造業企業戰略目標追求的是生產規模的擴大,70年代是生產成本的降低,80年代是產品質量的提高,90年代的目標追求的則是市場響應速度,即縮短交貨期。根據顧客的需求,迅速提供相應的產品成為企業競爭力最重要的構成因素。產品資料管理 pdm 一經問世,便迅速得到製造業企業...
NLP Unix命令 第一節練習 1
文字無處不在,我們可以利用unix的命令列做一些簡單的操作,有的甚至比編寫python程式要快得多。trtr是個簡單的替換命令,從標準輸入中替換 縮減和 或刪除字元,並將結果寫到標準輸出。tr option set1 set2 sort 將文字檔案內容加以排序,sort可針對文字檔案的內容,以行為單...
第一節 1C 基礎
using system using system.collections.generic using system.linq using system.text virutal studio 是開發工具 c 是一種語言c sharp net framework是提供函式庫類庫 建立第乙個控制台程式...