deepwork本質是word2vec模型在圖資料的擴充套件,通過deepwork方法可以獲得更加有效的圖資料節點的在連續空間的編碼。在圖資料用random walk取樣的序列等價於自然語言中的句子,序列中的節點等價於自然語言中的單詞。
本節提到的所有word2vec技術(cbow,skip-gram,hierarchical softmax)在經典回顧:word2vec模型中均有詳細介紹。
一次random walk被記作wvt
w_v^t
wvt
,可以通俗理解為以圖上乙個節點v
vv(隨機選取)為起始節點,一共包含t
tt個節點一條路徑。具體的第2個節點是從第乙個節點的鄰居隨機選取,第3個節點是從第二個節點的鄰居隨機選取,以此類推。
為了實現能夠獲得更通用的圖節點在連續空間的編碼,這裡需要借助自然語言處理中的word2vec中cbow思路,優化目標為:最大化在random walk的路徑中,根據已經獲得的節點v1,
v2,.
..,v
i−1v_1,v_2,...,v_
v1,v2
,..
.,vi
−1觀察到節點v
iv_i
vi的可能性,即:
m ax
p(vi
∣φ(v
1),φ
(v2)
,...
,φ(v
i−1)
)maxp(v_i|φ(v_1),φ(v_2),...,φ(v_))
maxp(v
i∣φ
(v1
),φ(
v2)
,...
,φ(v
i−1
))其中,φ
φφ可以看作語言模型中的投影層,引數尺寸為v∗d
v*dv∗
d(v為節點的總數,d每個節點為編碼的長度)
不過直接優化上述公式十分困難,因此需要對上述問題進行鬆弛:首先可以將由上下文**節點轉為由節點**上下文(這裡上下文長度又稱為視窗長度w,w=1時上下文為節點左側距離最近的1個節點和右側距離最近的1個節點);其次不再考慮上下文的順序,即上下文每個節點相對於偏移。優化的目標變為了自然語言處理中的word2vec中skip-gram思路:
m ax
p(vi
−w,.
..,v
i−1,
vi+1
,...
,vi+
w∣φ(
vi))
maxp(v_,...,v_,v_,...,v_|φ(v_i))
maxp(v
i−w
,...
,vi−
1,v
i+1
,...
,vi+
w∣φ
(vi
))同時為了進一步加速也將skip-gram中softmax層換為了word2vec中hierarchical softmax方法。
經典回顧 模型測試集評價指標(模型泛化能力)
靈敏度 sensitivity 特異度 specificity 1 特異度 roc曲線 auc area under curve 為真 為假 標籤為真 tpfn 標籤為假 fptn a cc urac y tp tnt p fp fn tnaccuracy frac accura cy t p fp...
經典回顧(一)
依稀的記得河南省第七屆acm省賽的第一題 物資排程 貌似可以用dfs水過,但是後來發現可以用dp解決。現在在做面試題的時候又遇到了類似的問題。突然發現這題原來也不過如此,我也能把動態轉移方程給推出來了。方法一 dfs,每個數都有取和不取兩種狀態。如果資料太大 2 n 一定會超時。includeusi...
經典面試題回顧
一 請你自我介紹一下你自己?一般人回答這個問題往往會進入誤區,回答的過於平常,只說姓名 年齡 愛好 工作經驗等,但是你們想到沒有,其實這些資訊你的個人簡歷上都有,那麼面試官還問你幹什麼?其實,面試官最希望知道的是求職者能否勝任這份工作,包括 最強的技能 最深入研究的知識領域 個性中最積極的部分 做過...