機器學習簡單介紹 一

2021-10-04 15:21:18 字數 1023 閱讀 1228

1. 機器學習方法 

分為 有監督學習、無監督學習、半監督學習、增強學習

1)有監督學習:從給定的有標註的訓練資料集中學習出乙個函式(模型引數),當新的資料到來時可以根據這個函式**結果

分為分類(二分類)和回歸(填空)。

2)無監督學習:沒有標註的訓練資料集,需要根據樣本間的統計規律對樣本集進行分析,

如聚類3)半監督學習:結合(少量的)標註訓練資料和(大量的)未標註資料來進行資料的分類學習。

兩個基本假設:

聚類假設:處在相同聚類中的樣本示例有較大的可能擁有相同的標記,根據假設,決策邊界就應該盡量通過資料較為稀疏的地方。

流形假設:處於乙個很小區域性區域內的樣本示例具有相似的性質。因此,其標記也應該相似。在假設下大量未標記示例的作用就是讓

資料空間變得更加稠密,從而有助於更加準確地刻畫區域性特性,使得決策函式能夠更好地進行資料擬合。

4)增強學習:外部環境對輸出只給出評價資訊而非正確答案下,學習機通過強化受獎勵的動作來改善自身的效能。

比如:教乙個小孩子走路,不告訴他先走哪個腳,讓他走,走不好就會摔,走好了給獎勵,自然就會走路了。

2. 機器學習面臨的難題與挑戰

1)資料稀疏性

2)高數量和高質量標註資料需求:獲取標定資料需要耗費大量的人力和物力。

3)冷啟動問題: 產品初期,資料不足的問題

4)泛化能力問題:訓練資料不能全面、均衡的代表真實資料

5)模型抽象困難:總結歸納問題中數學表示很難

6)模型評估困難:實際問題中,很難定量評估乙個模型的好還是不好

7)尋找最優解困難

8)scalability是網際網路的核心問題之一,搜尋引擎索引的重要網頁超過100億,如果1臺機器每秒處理1000網頁,需要至少100天,所以出現了spart, mpi...等分布式計算構架,選擇什麼樣的計算平台,和演算法設計緊密相關

9)速度是網際網路核心的使用者體現。

10)online learning:網際網路每時每刻都在產生大量新資料要求模型隨之不停更新,所以 online learning 是機器學習的乙個重要研究方向。

機器學習簡單介紹

機器學習是近20多年興起的一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動 學習 的演算法。機器學習演算法是一類從資料中自動分析獲得規律,並利用規律對未知資料進行 的演算法。因為學習演算法中涉及了大量的統計學理論,機...

機器學習簡單介紹

機器學習不是科幻電影。機器學習目的是解放生產力。機器學習 機器自主獲取事物的規律。要讓機器可以 學習 必須將生活中的資料 包括但不限於影象 文字 語音 數值化,將不同事物的變化和關聯轉化為運算。機器學習可以成立的原因是 概念和數值 關係和運算可以相互對映。1 有監督 訓練哈士奇就是典型的有監督學習,...

機器學習 一 基礎介紹

2.機器學習就業需求 linkedin所有職業技能需求量第一 機器學習,資料探勘和統計分析人才 3.深度學習 deep learning 3.1 什麼是深度學習?深度學習是基於機器學習延伸出來的乙個新的領域,由以人大腦結構為啟發的神經網路演算法為起源加之模型結構深度的增加發展,並伴隨大資料和計算能力...