在機器學習中為什麼要進行 One Hot 編碼?

2021-10-07 03:05:42 字數 500 閱讀 3259

類別資料是一種只有標籤值而沒有數值的變數。

它的值通常屬於乙個大小固定且有限的集合。

類別變數也常被稱為標稱值(nominal)。

下面舉例說明:

以上例子中的每個值都代表著乙個不同的類別。

有些類別彼此間存在一定的自然關係,比如自然的排序關係。

上述例子中,位次(place)變數的值就有這種自然的排序關係。這種變數被稱為序數變數(ordinal variable)。

有些演算法可以直接應用於類別資料。

比如,你可以不進行任何資料轉換,將決策樹演算法直接應用於類別資料上(取決於具體實現方式)。

但還有許多機器學習演算法並不能直接操作標籤資料。這些演算法要求所有的輸入輸出變數都是數值(numeric)。

通常來說,這種限制主要是因為這些機器學習演算法的高效實現造成的,而不是演算法本身的限制。

但這也意味著我們需要把類別資料轉換成數值形式。如果輸出變數是類別變數,那你可能還得將模型的**值轉換回類別形式,以便在一些應用中展示或使用它們。

為什麼要學習機器學習?如何學習

如果你是乙個博士,那麼很可能你的理想是提出乙個被全世界廣泛應用的演算法,如em,svm等 如果你是乙個碩士,那麼很可能你的理想是把博士們提出的演算法應用到實際的工程當中,我是乙個碩士,我目前想做的事情,就是利用目前一些比較成熟的機器學習演算法來解決實際工程中的問題。不過最近比較糾結,怎樣去進一步學習...

為什麼要學習

技術不斷發展,人們也需要不斷的學習。可是,學習的目的到底是為了什麼?有多少程式設計師認真思考過?古時候就有 書中自有 屋,書中自有顏如玉 的說法,那時一旦考取了功名,就可以當官發財,女人更是不 用發愁了。可是到了現代,素質教育普及化了,上大學已不是什麼稀罕的事情了。國內大部分從業的軟體人才,都 是學...

為什麼要進行認知公升級?

我們生活在乙個最好的時代,也生活在乙個最壞的時代。最好,是因為機會無限多。最壞,是因為到處人才擁擠。可是 只要你足夠好,上天就眷顧你。而我們作為乙個個體,想要獲得上天的垂憐,除了選擇去撞概率買彩票一夜暴富之外,唯一的方式有且只有一條 通過不斷成長,變得足夠好。一兩年前,我追女孩子琢磨出乙個真理,與某...