1、大多數元素都是0的矩陣稱為稀疏矩陣,否則稱為稠密矩陣。規模巨大的稀疏矩陣在應用機器學習中很常見,尤其在自然語言處理領域中,例如獨熱編碼。稀疏矩陣的表示、計算會增加空間和時間複雜度,因此描述稀疏矩陣的稀疏性需要進行特殊的表示,以提高儲存和計算效能。
2、南大周志華老師寫的《機器學習》這本書上原文:「為普通稠密表達的樣本找到合適的字典,將樣本轉化為合適的稀疏表達形式,從而使學習任務得以簡化,模型複雜度得以降低,通常稱為『字典學習』(dictionary learning),亦稱『稀疏編碼』(sparse coding)」塊內容。
4、distribute by imei sort by imei, seqno
distribute by: 在有些情況下,我們需要控制某個特定行應該到哪個reducer,通常是為了進行後續的聚集操作。distribute by子句可以做這件事。distribute by類似mr中partition(自定義分割槽),進行分割槽,結合sort by使用。
order by 會對資料進行全域性排序,和oracle和mysql等資料庫中的order by 效果一樣,它只在乙個reduce中進行所以資料量特別大的時候效率非常低。
sort by 是單獨在各自的reduce中進行排序,所以並不能保證全域性有序,一般和distribute by 一起執行,而且distribute by 要寫在sort by前面。如果mapred.reduce.tasks=1和order by效果一樣,如果大於1會分成幾個檔案輸出每個檔案會按照指定的字段排序,而不保證全域性有序。
distribute by 控制map 中的輸出在 reducer 中是如何進行劃分的。使用distribute by 可以保證相同key的記錄被劃分到乙個reduce 中。
distribute by 和 sort by 合用就相當於cluster by,但是cluster by 不能指定排序為asc或 desc 的規則,只能是公升序排列。
5、rfm
rfm是使用者關係管理中的常用模型,通過分析使用者的最近消費日期、消費頻次、消費金額來衡量其價值和創利能力。
rfm分別指的是最近一次消費(recency) 、消費頻率(frequency)、消費金額(monetary),又來有學者在此基礎上增加了生命週期分析(life),因此就有了rfm_l模型。
6、vectorindexer、stringindexer
主要作用:提高決策樹或隨機森林等ml方法的分類效果。
vectorindexer是對資料集特徵向量中的類別(離散值)特徵(index categorical features categorical features )進行編號。
stringindexer:字串-索引變換,就是將某些標籤的字串列編號變成標籤索引項。標籤索引項序列的取值範圍就是
[0,numlabels](這裡的numlabels是所有出現的單詞去掉重複的詞後的總和)。
這裡的標籤索引項順序就是按照標籤出現的頻率來排序的,出現最多的標籤索引就是0(倒序)。
7、pipeline作用
pipeline誕生場景: redis基於請求/響應模型,單個請求處理需要一一應答
8、特徵交叉與特徵組合、合成特徵
特徵交叉是資料特徵的一種處理方式,通過特徵組合的方式增加特徵的維度,以求得更好的訓練效果。在實際場景中,我們常常遇到這要的情況,線性分類起無法在如下樣本中(無法畫一條直線將下列黃點和藍點分開),所以特徵組合是一種讓線性模型學習到非線性特徵的方式:
如何做特徵組合?
特徵組合的思想很簡單,通過將單獨的特徵進行組合(相乘或求笛卡爾積)而形成的合成特徵。
比如屬性a有三個特徵,屬性b有兩個特徵,笛卡爾積後就有六個組合特徵,然後用one hot 或其他embedding方式給新的特徵編碼。但暴力做交叉可能產生稀疏問題。
機器學習、深度學習的區別
預訓練rbm
有向圖無向圖
gbt、bert,雙向描述能力更強,求解比較麻煩
單向模型求解簡單,可以學它的表示
梯度**、衰減
知識圖譜、認知圖譜
人的記憶先過海馬體,把短期記憶抽象成長期記憶
注意力機制
強化學習
純機器學習的ai系統特點:
可解釋性:無、泛化能力:弱、魯棒性:弱、重大錯誤、需要的學習樣本:大、應用場景:需要大量的資料
日常學習總結
關於vb中的把字串 日期型 數值型 賦值給某個變數的寫法 eg dim m1,r 此處我並不清楚 m1 到底是什麼型別 所以vb會自動匹配其應該所屬的型別,這是vb的一點強大之處 m select fitemid from t item where fitemclassid 3 and fnumbe...
日常學習2017 18
昨天主要講了巢狀迴圈,另外還有break為中斷,打斷 結束當前迴圈。continue繼續,結束本次迴圈並且繼續迴圈 巢狀迴圈三要素 外打行,內打列,找規律。其中比較經典的程式有列印乙個正方形,下面是程式。public static void main string args system.out.p...
Kotlin日常學習
今天來說一下所增添的kotlin學習內容。首先說一下kotlin的伴隨 生 物件 在kotlin中,有乙個關鍵字 companion,可以用來標記物件宣告。先來看一下 例 class books var name string,val page int fun main args array pri...