網路挖掘的初步認識

2021-09-01 19:50:22 字數 3433 閱讀 1290

由此引出網路挖掘的概念,它指的是資料探勘技術在網路資訊處理上的應用。資訊化的逐步深入和可獲取資料**性的增長,為網路挖掘的發展提供了足夠的沃土,引起多個學科的關注和涉足,如社會組織學、資訊管理學和電腦科學。隨著大資料時代的來臨,旨在快速、高效獲取知識的網路挖掘將獲取的巨大的發展空間,成為一門真正的科學。

網路挖掘的重要人物有卡內基梅隆大學的

christos falousos

、康奈爾大學的

john kleinberg

、jure leskovec

等,資料探勘領域的宗師級人物韓家煒近幾年也將研究重點投入到網路分析中來,並提出異構資訊網路挖掘將成為資料探勘的下乙個前沿領域。前不久在北京舉行的資料探勘頂級會議

acm sigkdd

中,主辦方開設了

10餘個與社會網路相關的

workshop,

社會網路研究的火爆程度,可見一斑。值得我們驕傲的是,該領域華人科學家有著非常強勁的實力,難怪資料探勘領域的泰斗人物

christos falousos

誇張地說,這個領域只有他不是中國人了。

具體說一下網路挖掘,常用的網路度量指標有最短路徑、網路直徑和中心度,最短路徑指兩個節點之間最短的連線序列,根據圖的不同,「最短」的定義也不同,對於無權圖,最短即連線的數目最少,對於有權圖,最短指這兩個節點之間連線的權重之和最小;而網路直徑就是乙個圖中最大的最短路徑;中心度分三種型別,依次是

normalized centrality degree

、betweenness centrality

和closeness centrality

,具體來說,

normalized centrality degree

通過與某節點直接相鄰的其他節點數目來反映節點的重要性,

betweenness centrality

衡量的是這個節點在整個圖中的不可替代性,

closeness centrality

說的是該點到圖中其他點之間最短路徑的平均距離,一般來說,這三個中心度之間的關係是正相關,如果不是這樣,那往往說明網路中發生了一些有趣的事情,值得你去跟進研究。

再說一下當前網路挖掘的最熱點領域,個人感覺非網路演化莫屬了。這方面的研究從

2004

年起逐步增多,通常的研究方法是觀察網路屬性比如密度、直徑、中心度、元件、社群等屬性隨時間的變化情況,通過研究,學界得出一些非常有趣的結論,比如專利引用網路的節點和連線之間存在

power law

關係,隨著時間發展,連線數量的增長速度大於節點數量的增速,而整個專利引用網路直徑則不斷減小,這種現象對映到現實中,反映了不同技術領域的研發工作關聯愈發密切,多個技術領域的交叉點往往是新技術的高發區。當然,僅僅靠觀察各個指標隨時間的變化情況來研究網路演化,距離真正的科研工作還很遠,我們還需要提出數學模型來刻畫網路變化中的出現的各種特徵。以往的研究工作中提出的數學模型以及這些模型所覆蓋的網路特徵如下表所示:

random attachments

preferential attachments

copying model

community guided attachment

forest fire model

power-law degree distribution ×

∨ ∨∨ ∨

community ×

× ∨× ∨

densification power-law ×

× ×∨ ∨

shrinking diameter ×

× ×× ∨

從上表可看出,雖然

forest fire model

同時覆蓋了社會網路的四個重要特徵,但仍存在重要不足,它沒有表現出社會網路的

small world

特徵、平均路徑長度變化特徵、網路集中度變化特徵等等,可見,未來的研究中這方面仍然有大量的工作需要完成。

另乙個值得關注的網路演化問題是社群演化,所謂社群,即有共同特徵的成員所組成的集合。隨時間發展,不同社群之間及社群內部的成員特徵會發生變化,從而產生社群**、融合、消亡、產生等現象,研究社群演化,對理解進而掌握社會發展、科技進步、**動向等都具有重要意義。社群演化包括兩個部分,一是社群的產生,二是社群的演化。社群的產生就是通過各種聚類方法將成員聚集成不同的社群,社群內部成員關係密切,社群之間成員關係稀疏。傳統的聚簇方法有

k-means

、k-medoids

等演算法,但此類演算法的缺陷是它只將距離較近的具有一定相似度的成員聚成一類,而對距離較遠的成員無能為力,更好的聚類方法是

spectral clustering

,它的總體思路是將特徵空間降維後再聚類,這種聚類方法可以完全克服

k-means

演算法的缺點,但它對學習者的數學基礎(如高等數理統計、矩陣分析等)有較高要求。

spectral clustering

演算法是當前聚類演算法研究的熱點,今年

kdd會議關於聚類的

workshop

中,關於

spectral clustering

的**就佔到了一半。

談到該領域的重要文章,我覺得可以重點關注下

jure leskovec

的**,他的研究偏重實踐多點,此君雖然英語口音極重,但文章是不折不扣的精品;相比之下,

michael jordon

的文章更加偏理論、偏數學,深度上要更深一些;說到最近的文章,榮獲

kdd』2012 best student ***** award

的兩篇文章給人的印象很深刻,其中

integrating meta-path selection with user-guided object clustering in heterogeneous information networks

講述在影響網路變化的諸多因素中,如何篩選出使用者最關注的因素,另一篇文章

intrusion as (anti)social communication: characterization and detection

,用於檢測網路入侵,作者的思路是入侵元素在入侵前,與業已形成的網路社群結構相比而言特徵明顯,可以作為入侵檢測的判別標準。這兩篇文章給我總的印象是能夠準確抓住當前科研前沿的關鍵問題,並給出漂亮的解答,它們不僅對自身領域,而且對其他領域的工作有很大的推動作用,比如第二篇文章對於情報學領域的突破性技術識別研究就很有建設性。

最後再談一下網路分析工具,較有代表性是

pajek

、guess

、netlogo

和igraph

。pajek

可免費獲取,它內建的演算法多、功能強大,但缺點也同樣明顯,它的介面操作不便、圖形效果醜陋,而且不支援擴充套件;相比之下

guess

、igraph

具有良好的可擴充套件性,很容易與當前統計分析技術結合使用,

netlogo

為網路建模提供了良好的支援,並且它支援網路演化過程的動態展示,因此可以製作出一些不錯的動畫效果。

資料探勘基礎 初步認識 matplotlib

實現乙個簡單的 matplotlib 畫圖 shift enter 執行 matplotlib 三層結構 容器層 容器層由canvas figure axes三部分組成 canvas 位於最底層的系統層,充當畫板,即放置figure的工具 figure 是canvas上方的第一層,也是需要使用者來操...

網路程式設計初步認識(一)

1 socket是連線應用程式與網路驅動程式的橋梁,socket在應用程式中建立,通過繫結操作與驅動程式建立關係。應用程式送給socket的資料,由socket交給驅動程式,驅動程式向網路傳送出去。計算機從網路上收到與該socket繫結的ip位址和埠號相關的資料後,由驅動程式交給socket,應用程...

初步認識神經網路

機器學習 讓機器 廣義上的計算機 通過學習來獲得類似人類的智慧型。例如 人類會下圍棋,alphago或alphago zero就是乙個掌握了圍棋知識 會下圍棋的電腦程式。神經網路 實現機器學習任務的一種演算法 數學模型。機器學習領域的神經網路,特指人工神經網路 其網路結構類似於生物神經系統,用來模擬...