二、機器學習相關
引例:在《機器學習》一書中主要是根據西瓜的一些資料,例如:色澤、根蒂、敲聲等來判斷西瓜是否是好瓜或者成熟度是多少。
反映事件或物件在某方面的表現或性質的事項。在引例中,色澤、根蒂、敲聲等就是特徵(屬性),而青綠、蜷縮、清脆則稱為特徵值(屬性值).同樣的,如果將特徵作為座標軸,則會得到乙個空間,這個空間稱為:樣本空間(或稱屬性空間)
關於乙個事件或物件的描述的記錄,在引例中,如果乙個西瓜色澤青綠,根蒂蜷縮,敲聲清脆,那麼(色澤=青綠,根蒂=蜷縮,敲聲=清脆)即可稱為乙個樣本(示例),如果將特徵作為座標軸,那麼每個樣本會在空間中對應乙個座標向量,因此乙個樣本也稱為乙個特徵向量
樣本的集合
乙個資料集d中的乙個樣本m用n個特徵來描述則n稱為樣本m的維數。在引例中的西瓜用了三個特徵來描述,則這個西瓜的維數是3
從資料中學得模型的過程,在訓練過程中使用的資料稱為訓練資料,其中的每個樣本稱為訓練樣本,訓練樣本組成的集合叫訓練集
在引例中,我們在訓練過程中僅知道樣本是不夠的,除了知道色澤=青綠,根蒂=蜷縮,敲聲=清脆這樣的資訊,我們還需知道這樣乙個瓜的結果資訊,例如』這是乙個好瓜(壞瓜)『或者』這個瓜的成熟度為90%『,好瓜(壞瓜)/90%這樣的資訊稱為標籤,擁有標籤的樣本稱為樣例,所有標籤(標記)的集合稱為標記空間(輸出空間)
在學得模型以後對樣本進行**的過程稱為測試,被**樣本稱為測試樣本
訓練得到的模型適應新樣本的 能力稱為泛化能力
訓練資料擁有標記資訊的學習任務
2.1.1分類問題
**結構為離散值,例如在引例中將瓜分為好瓜 / 壞瓜,就是乙個分類問題。
二分類任務是只涉及兩個類別的分類問題,通常會稱乙個類為正類,另乙個為反類
多分類任務顧名思義是涉及到多個類別
2.1.2回歸問題
**值為連續值
訓練資料通常不含有標記資訊的學習任務
2.2.1聚類問題
訓練過程會將樣本分為不同簇,每個簇可能含有我們不知道的一些潛在概念,在引例中,聚類會將瓜分為很多簇,這些簇可能會按淺色瓜、深色瓜或者本地瓜、外地瓜劃分,但訓練之前我們是不會知道這樣的概念的。
深度學習一些學習鏈結(補充)
機器學習庫 sklearn,scikit 乙份pytorch web ml notes ml assignments 班級學霸整理,照搬的。適合新手學習,比如我。都要看得懂,各種 原始碼基本兩種都有,有的用pytorch寫有的用tf.企業招聘的要求也是一般要求精通一門框架,熟悉一門其他框架。新手可以...
機器學習的一些知識
1.1維度災難 維度災難 curse of dimensionality 是指資料量過大和特徵數過多導致的一系列問題。隨著資料的不斷積累,在實際應用問題中我們接觸到的資料集 資料記錄可能有幾萬 幾十 萬 幾百萬乃至更多,特徵數量也可能達到幾百甚至幾千個。我們自然希望獲取盡可能多的資料 即希望二維表的...
一些輔助軟體 補充
這是乙個開源跨平台的文件系統 不是檔案系統 我用它來生成工程的文件,工程?直接用vscode開啟不就好了,還要什麼文件。vscode是 編輯器,對於 檢視來說,總需要右鍵跳轉到定義,而這個生成的直接滑鼠左鍵點一下就可以。不只是給自己看的,還需要別人看不是?生成這個文件可以讓其看到源 但是源 並沒有直...