機器學習學習記錄 持續更新 框架處理

2022-09-08 08:21:20 字數 966 閱讀 3555

機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的**。

標籤是我們要**的事物,即簡單線性回歸中的y 變數。標籤可以是小麥未來的**、中顯示的動物品種、音訊剪輯的含義或任何事物。

特徵是輸入變數,即簡單線性回歸中的x 變數。簡單的機器學習專案可能會使用單個特徵,而比較複雜的機器學習專案可能會使用數百萬個特徵,按如下方式指定:

在垃圾郵件檢測器示例中,特徵可能包括:

樣本是指資料的特定例項:x。(我們採用粗體 x 表示它是乙個向量。)我們將樣本分為以下兩類:

有標籤樣本同時包含特徵標籤。即:

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是使用者明確標記為「垃圾郵件」或「非垃圾郵件」的各個電子郵件。

無標籤樣本包含特徵,但不包含標籤。即:

兩者的聯絡:在使用有標籤樣本訓練模型之後,我們會使用該模型**無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是使用者尚未新增標籤的新電子郵件。

模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與「垃圾郵件」緊密聯絡起來。我們來重點介紹一下模型生命週期的兩個階段:

回歸模型可**連續值。例如,回歸模型做出的**可回答如下問題:

分類模型可**離散值。例如,分類模型做出的**可回答如下問題:

機器學習學習記錄 持續更新 pandas

pandas訪問資料的方法 pandas操控資料的方法 pandas 是一種列存資料分析 api。它是用於處理和分析輸入資料的強大工具,很多機器學習框架都支援將 pandas 資料結構作為輸入。可以將它想象成乙個關係型資料 其中包含多個行和已命名的列。建立dataframe的方法可以是將對映 str...

機器學習學習記錄 持續更新 pandas

pandas訪問資料的方法 pandas操控資料的方法 pandas 是一種列存資料分析 api。它是用於處理和分析輸入資料的強大工具,很多機器學習框架都支援將 pandas 資料結構作為輸入。可以將它想象成乙個關係型資料 其中包含多個行和已命名的列。建立dataframe的方法可以是將對映 str...

機器學習學習記錄 持續更新 降低損失

下圖是機器學習過程中常見的迭代流程圖 該圖體現了機器學習過程中,通過迭代來減少損失的基本思路。大致思路如下 首先根據資料集中的訓練集來得到乙個 模型,然後利用該模型來計算乙個特徵對應的輸出,並且計算出損失。通過獲得的損失,來更新 模型的引數,再反覆進行上述過程。直至最後計算出來的損失降低至了可接受的...