1.機器學習主要是通過計算機在已有的資料上(經驗)產生相應的模型(學習演算法),在面臨新的情況時,模型能給出相應的判斷。所以說機器學習是研究學習演算法的學問。
2基本術語
2.1以西瓜是否成熟為例,(色澤=青綠;根蒂=蜷縮;敲聲=濁響)這一條記錄稱為乙個示例或樣本sample。樣本組成的集合稱為資料集;每乙個示例包含幾個屬性,上例中包含三個屬性,我們稱之為三維,這個示例也可以看成是乙個特徵向量。一般的d=為乙個資料集。
2.2從資料中學習的模型的過程稱之為「學習」或」訓練「,這個過程使用的資料稱之為訓練資料,得到模型。學到的模型反應了資料的某種潛在的規律,因此也稱為假設。這種規律本身稱之為真相(ground truth)。一切為了逼近真相。樣本一般滿足乙個分布d,訓練資料一般滿足獨立同分布,所以訓練集越大,越容易準確**。
2.3光有樣本sample還不行,要建立可**的模型需要示例的結果,樣例(example),如((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)。
2.4如果我們**的是像好瓜,壞瓜這樣的離散值,此類學習任務稱之為「分類」,**成熟度0.98這樣的連續值,此類學習任務稱之為」回歸「(regression)。
**任務是希望通過對訓練集進行學習建立乙個從輸入空間x到輸出空間y的對映,對於二分類y=,對於回歸y=r實數集
2.5根據訓練資料是否有標記資料,分為無監督學習(聚類)和有監督學習(分類和回歸)。
2.6
機器學習 學習筆記(一)第一章 基本概念
看完了西瓜書的第一章,做乙個簡單的筆記。一 基本概念 屬性 attribute 特徵 feature 反映事件或物件在某方面的表現或性質的事項,屬性張成的空間稱為 屬性空間 attribute space 樣本空間 sample space 示例 instance 樣本 sample 關於乙個事件或...
第一章 程式設計基本概念
1 計算機是一種具有內部儲存能力,由程式自動控制的電子裝置。2 當給出命令之後,計算機按指令順序自動進行操作,把這種可以連續執行的一條指令的集合稱為 程式 3 計算機只能接受和處理由0和1的 構成的二進位制指令或資料。把由高階語言編寫的程式稱為 源程式 把有二進位制 表示的程式稱為 目標程式 c源程...
第一章 hive的基本概念
1 hive基本概念 hive是乙個以apache hadoop為基礎的資料倉儲基礎設施。hive的設計目標是使得資料彙總更加簡單和針對大容量資料的查詢和分析。hive的sql為使用者提供了多種地方來融合他們自己的方法實現自定義分析 hive不是為事務聯機處理設計的。它是用於處理傳統資料倉儲任務。2...