1.knn演算法:是為了對例項進行正確地分類,其最大的缺點是無法給出資料的內在含義。該演算法的關鍵在於針對不同的資料集選擇合適的「距離」,因為對距離的定義我們有很多種方式,比如歐式距離、切比雪夫距離等。
2.決策樹:既可以回歸也可以分類;決策樹通常有三個步驟:特徵選擇、決策樹的生成、決策樹的修剪;用決策樹分類:從根節點開始,對例項的某一特徵進行測試,根據測試結果將例項分配到其子節點,此時每個子節點對應著該特徵的乙個取值,如此遞迴的對例項進行測試並分配,直到到達葉節點,最後將例項分到葉節點的類中;決策樹學習的目標:根據給定的訓練資料集構建乙個決策樹模型,使它能夠對例項進行正確的分類。
決策樹學習的損失函式:正則化的極大似然函式
決策樹學習的測試:最小化損失函式
其中分支節點為判斷模組即對所選擇的特徵,葉子節點為最終分類結果的模組即可以得出最終的結論或者分類結果。
決策樹的優勢在於資料形式非常容易理解且可以更好地理解資料的內在含義。
構建決策樹的實質時根據該特徵對訓練資料進行分割,使得各個子資料集有乙個最好的分類的過程。這一過程對應著對特徵空間的劃分,也對應著決策樹的構建。即利用訓練資料構建最優的決策樹即可以花費最少的平均時間和步驟進行分類,然後待測點通過該決策樹進行分類。
劃分資料集有兩種演算法:id3和c4.5;劃分資料集的大原則是:將無序資料變得更加有序,在劃分資料集前後資訊發生的變化稱為資訊增益,獲得資訊增益最高的特徵就是最好的選擇,即先對每個特徵對資料集進行劃分,選取最高資訊增益的特徵為我們選擇的最優特徵。
所謂資訊增益是指得知特徵x的資訊而使得類y的資訊不確定性減少的程度。
舉個栗子,判斷乙個西瓜是否為好瓜,我們有許多特徵進行判斷,而如果我們僅做一次判斷可以使得我們做出的決策正確概率最大的特徵就是我們當前應當選取的特徵。比如顏色,如果不是綠色,則我們可以斷定它不是好瓜,但如果是綠色,我們還要進一步判斷,資訊增益是說,當我們已知該瓜的某乙個特徵比如顏色的情況下,我能進行正確分類的概率大大增加了,比如之前我只有0.5的概率猜對,而得知後,我有0.8的概率猜對,這就是資訊增益即條件概率。
求解資訊增益:熵、條件熵(h(y∣x)表示在已知隨機變數x的條件下隨機變數y的不確定性),而這裡的概率就是統計頻率即選擇該特徵的概率;因此,資訊增益熵-條件熵,資訊增益率資訊增益/熵;這裡的熵指的是無視任何屬性的情況下,即不知任何先驗資訊的情況下,我瞎猜能猜對的平均概率有多大。經過第一輪選取最優屬性後,將表劃分為k個子表,再對子表重複上述操作直至無法劃分子表為止。
小技巧:剪枝(預剪枝和後剪枝);損失函式
1.聯邦學習:目的是為了解決資料孤島,在不共享資料的前提下,實現資料的融合,充分利用大資料,再通過機器學習或者資料探勘等技術將這些資料的潛在價值最大化
2.遷移學習:是一種機器學習方法,就是把為任務 a 開發的模型作為初始點,重新使用在為任務 b 開發模型的過程中。可以提公升效率,有些類似c++的**重用的趕腳
機械人軌跡規劃
路徑和軌跡 運動率 執行器施加到關節的廣義力,不違反飽和度限制且不激發結構的典型諧振模式。路徑 在關節空間和操作空間中,機械手在執行指定運動時必須跟隨的點的軌跡。軌跡 一條指定了時間率的路徑。軌跡規劃演算法的輸入 路徑描述 路徑約束 機械手動力學約束 輸出 按時間順序給出的位置 速度 加速度序列 1...
Python學習軌跡 0503
好幾天沒有碰過就 什麼都忘記了 還很丟人 我 師兄,這是環境變數沒有設定好嗎?venv c users dell pycharmprojects 0503 hello world hello world 不是內部或外部命令,也不是可執行的程式或批處理檔案。師兄 不是吧,hello world.py?...
演算法學習的軌跡
看到網上有人說,演算法是這樣學習的 對於程式設計的初學者,可以先通過簡單的排序演算法了解最簡單的adt線性表的常用操作 然後要重點掌握遞迴技術,包括遞迴和遞推的相互轉換。遞迴技術非常重要,可以通過遞迴技術了解adt棧的操作 接著學習搜尋法的初步 回溯法,研究經典問題八皇后問題和走迷宮問題,通過這些經...