小樣本點雲深度學習庫 小樣本學習 資料層面的方法

2021-10-14 06:28:08 字數 1963 閱讀 1712

《網際網路大資料處理技術與應用》的相關教學資源

網路爬蟲的完整技術體系

我的資料誰做主?

充足的標註樣本是保證分類器成功的主要因素,然而現實中由於隱私、代價等許多問題,樣本不足是經常遇到的問題。而人類可以從很少的中抽象出乙個新的概念,甚至可以不看就可以得到新的概念,比如告訴小孩帶條紋的馬叫做斑馬,當他今後看到這種馬的時候就會知道它是斑馬。

2023年,本號推送過資料分類中的典型問題:小樣本、非平衡、弱標籤和無標籤,目前小樣本方面已經有所進展。

小樣本學習(fsl,few-shot learning)由此成為新的研究方向,關注的問題是如何在樣本數量少的情況下進行學習。acm computing survey 2020.3發表一篇fsl的綜述文章,本文摘取了其中的主要結論並做了些補充。當前fsl的解決辦法主要有資料、模型和演算法三個層面,它們都離不開先驗知識,整體方法如圖所示。資料層面主要是基於先驗知識進行訓練資料的增廣(增強、擴充);模型層面的方法圍繞如何縮小假設空間大小展開,也離不開先驗知識;演算法層面是基於先驗知識在給定的假設空間中如何改進搜素效率。

資料層面基本的策略仍是充分利用各種資料,首先是利用小樣本資料本身。沒有槍沒有炮就自己造,歪槍壞炮都可以。例如對影象進行旋轉、裁剪等操作可以得到新樣本,文字型別資料則可以進行同義詞替換、隨機插入、隨機交換、隨機刪除、通過句法樹生成意譯的句子等,總之,就是對小樣本訓練資料進行變換,但目前主要是針對影象資料。顯然,這些變換策略很大地依賴於領域知識,並且與資料集相關。

第三個策略實際上是利用其他的弱監督或無標籤資料,使用半監督ssl的方法。例如,可以使用小樣本訓練分類器,基於該分類器從其他無標籤資料集中挑選高可信度樣本從而完成小樣本的擴充。但這種方法只是針對標註代價高的問題,如果樣本資料本身就難於獲得,就無法使用了。

半監督學習本身是基於所謂的三大假設:平滑假設(相似的資料具有相同的標籤)、聚類假設(同一聚類中的資料有相同標籤)、流形假設(同一流形結構下的資料具有相同標籤),如圖左邊是根據已知標籤分類,右邊是結合未知標籤(圓圈外假設是無標籤資料)和流形假設進行訓練,從而可以得到更準確的分類器。

標籤傳播演算法lpa也是一種常見的ssl演算法,在fsl問題中也有人拿它來用。其基本假設仍然是相似的資料應該具有相同。構造資料點的相似矩陣,邊的權重越大,表示兩個節點越相似,那麼標籤就越容易傳播過去。

進一步閱讀

《python爬蟲大資料採集與挖掘》、《網際網路大資料處理技術與應用》是大資料應用開發和教學研究的參考書,是作者在相關領域教學科研的提煉,是學生喜歡的課程,配備ppt、**等教學參考資料。

關於爬蟲「武德」的思考

迪斯尼攻略: 基於python採集與挖掘的實現

在python中試驗非平衡資料取樣smote演算法

學位**格式和內容自查60問

爬蟲採集的合規性與大資料處理的合規性

小樣本點雲深度學習庫 小樣本學習 二

我對小樣本學習的誤解與困惑 我們的 小樣本 真的很小嗎?我們似乎習慣性的拿深度學習的大量資料集訓練,與人類嬰兒做對比。並藉此來嘲諷ai you are not as good as me,you are loser.但,最近的一些不連貫的思考,使我開始反思,我們人類小樣本真的比機器學習與深度學習小嗎...

小樣本點雲深度學習庫 域自適應小樣本學習

題目 domain adaptive few shot learning 6小樣本學習 few shot learning,fsl 在深度學習領域具有重要意義,在本文中小樣本學習被當作乙個遷移學習 源域和目標域之間進行遷移 問題。通常來說目標域的訓練樣本數量較少,而且與源域的領域不同。域自適應小樣本...

小樣本學習

眾所周知,深度學習是機器學習發展中乙個非常重要的里程碑,在很多任務上深度學習都取得了巨大的成功。然而,由於深度模型包含的引數很多,通常需要大量的有標籤的資料才能進行模型訓練,這點嚴重地限制了它的應用 在很多場景下,收集大量的有標籤的資料是非常昂貴 困難 甚至不可能的,比如醫療資料 手機上使用者手動標...