多標籤分類演算法的研究進展

2021-10-09 23:32:48 字數 2243 閱讀 9529

在機器學習方向的相關研究中,分類問題可以被分為二分類問題、多分類問題及多標籤分類問題。二分類問題即二元分類問題,其中某個樣本只有「屬於」或 「不屬於」這一類兩種情況;也可以稱之為「0/1」分類,屬於這一類即為「1」, 不屬於即為「0」。

多分類問題也可稱為多類別分類問題,即乙個樣本屬於且僅屬於多個類(一般多於兩類)中的乙個,其中乙個樣本只能屬於乙個類,不同類之間是互斥的。二分類問題及多分類問題可以統稱為單標籤分類問題。

多標籤分類問題又稱多標記學習,不同於多分類問題,在多標籤分類問題中乙個樣本可以屬於多個類別(或標籤),不同類(或標籤)之間是有關聯的。拿乙個「籃球顏色」的問題舉例,二分類問題即為「籃球 a 是紅色/不是紅色」,多分類問題即為「籃球 a 是紅色、橙色或者黃色」,多標籤分類問題即為「籃球 a 是『紅 色+橙色』,籃球 b 是『紅色+黃色』,籃球 c 是『紅色+橙色+黃色』」。 上述三種分類問題的描述可以更清楚地通過圖 1-1 展示。

演算法適應、問題轉換和多標籤分類器整合的方法(ensembles of multi-label classifier, emlc)是多標籤分類模型(multi-label classification, mlc)的三種主要型別。

演算法適應方法利用多種演算法將單標籤學習模型轉化為多標籤學習模型,從而 用於解決多標籤學習任務。演算法適應方法的典型模型是多標籤 k 近鄰演算法(multilabel k-nearest neighbor, ml-knn)。對於乙個給定的新樣本,ml-knn 演算法首 先在訓練集中找到最接近它的前 k 個樣本並計算這些樣本中的標籤數量,最後通過最大後驗估計得到標籤的**概率。

問題轉換方法將多標籤學習問題轉化為多個單標籤學習任務。問題轉換方法 的代表性方法有:二元關聯(binary relevance, br)、分類器鏈(classifier chain, cc)及標籤冪集(label powerset, lp)。

二元關聯方法將乙個多標籤問題轉化為多個二元分類任務,分別為每個標籤 建立乙個決策樹,也稱二元關聯方法。二元關聯方法對乙個新樣本進行分類時, 演算法取它輸出所有樹正**的標籤的並集進行**。這種技術有幾個缺點。首先, 它要求演算法學習的樹的數量等於標籤的數量,但這些標籤數量在某些領域可能是 幾百或幾千的乙個數量級。其次,很明顯的是,該方法在建模過程中沒有利用標 籤相關性這一資訊。第三,從知識發現的角度來看,這種方法得到的結果樹僅識 別與乙個標籤相關的特性,而不是識別出具有高整體相關性的特性。

然後,一些研究認為應該在分類過程中考慮標籤的相關性,即從二元關聯方法轉向了更複雜的方法。基於二元關聯方法提出的分類器鏈演算法的主要思想是將之前所有分類器的 0/1 標籤關聯新增到一組訓練例項中,這樣分類後的標籤資訊就可以傳遞到接下來的分類器中。在該方法中,鏈分類器中的標籤順序對**精度非常重要,這對**結果有很大的影響,這也是該方法的侷限性之一。

標籤冪集是一種傳統的問題轉換方法,它在標籤集合每個可能的子集上構建 模型。換句話說,標籤冪集方法對標籤的聯合分布進行建模,並為每個子集建立乙個子樹,它將多標籤訓練集中的每個標籤子集視為單標籤多類別分類任務的 新類別,**將是這些子集中的乙個。雖然這種方法簡單而有效,但是當標籤的 數量增加時,它可能會在乙個葉子上出現很少的例項。此外,隨著標籤數量的增 加,標籤組合的指數數量增長是這種方法的乙個潛在問題,對於標籤集合中有許 多標籤的資料集,標籤冪集方法往往會導致過擬合問題。

為了改進 lp 方法造成的過擬合問題,tsoumakas 等人將標籤空間劃分為子 空間,並在這些子空間中應用 lp 方法。隨機 k 標籤集多標籤分類方法(random k-labelsets for multilabel classification, rakel)就是根據這一原理設計的,它將標籤集分割成 k 個互不重疊的子集。但是 rakel 方法的乙個明顯缺點就是其子集 k 的劃分是任意選擇的,沒有包含標籤相關性,而這些相關性往往可以從訓練資料中獲得。

基於網路的標籤空間劃分方法(network-based label space division, nlsd)是乙個建立在 lp 基礎上的改良的多標籤分類器整合方法,它通過社群檢測方法 將標籤集劃分為 n 個小型標籤集,這些小型的標籤集(簇)在空間中可能重合。 該方法可以將標籤的相關結構合併到訓練集中,從而學習到 k個有代表性的 lp 分類器。因此,nlsd 方法處理的子集數量比 lp 方法少得多,同時 nlsd 方法以資料驅動的方式選擇了 k 個有代表性的子集,是一種多標籤分類器的整合方法。關 於多標籤學習的更詳細的解釋,參見張敏靈等人及 moyano 等人的研究。

本篇文章引自:基於網路的標籤空間劃分方法**cyp450 酶-底物選擇性

由於文章在伺服器上,詳細內容見:

FrFT在訊號處理領域的研究進展

分數階 fourier 變換是對經典 fourier 變換的推廣.最早由 namias 以數學形式提出,並很快在光學領域得到了廣泛應用。分數階 fourier 變換直觀上可看作是 chirp 基分解,而實質上分數階 fourier 變換更具有時頻旋轉的特性,它是一種統一的時頻變換,隨著變換階數從 0...

中文分詞的一些最新研究進展

最近,讀了幾篇這兩年發表的關於分詞的會議 發現現在主要的研究方向是解決分詞的領域適用問題,採用的主要模型是已有的分詞演算法 訓練集 部分標記語料的半監督學習方式,分詞演算法包括感知器 條件隨機場,部分標記的語料主要為維基百科的漢語語料現在主要介紹一下各文章的關注重點和異同。傳統的分詞方法在訓練集和測...

諾亞面向語音語義的深度學習研究進展

本次演講簡要回顧了深度學習近十年進展,重點介紹華為諾亞方舟實驗室最近兩年內和深度學習相關的研究成果,並 了深度學習的未來趨勢。深度學習為什麼現在這麼火?大資料 演算法突破和計算能力。演算法上的突破有包括三點 第一點,對多層神經網路做預訓練。第二點,大量標註資料驅動的監督學習和防過擬合技術的結合,例如...