在此節介紹我所做的內容所涉及的一些基本概念。只是粗淺了解社群挖掘,沒有系統學習過,寫它的原因是網上這種內容有點少,如有錯誤,還請指正。
空間網路:我把它當做普通圖看待,但根據一些大佬的定義,它是具有空間屬性的點組成的圖。
社群:網路圖中滿足一些條件的子圖。社群在每個實驗中都是不同的,它有實驗目標。比如我們想從圖中找出度大於k的點構成的子圖,那麼這類子圖就是社群。
社群結構特性:同一社群內結點連線緊密、不同社群間節點連線稀疏。
k-core:一種社群模型。如果乙個圖中所有點的度都大於等於k,k是乙個整數,那麼這個圖可以被稱為k-core。下圖即是乙個3-core。
結構性約束:判斷乙個社群內的節點之間連線是否緊密的約束。最直接的表達形式就是社群中點的度。
結構性約束閾值k:結構性約束閾值k用於判斷乙個點是否滿足參與度約束。當乙個圖中最小度大於等於k時,表明它滿足結構性約束,即乙個k-core,它肯定滿足結構性約束閾值為k的結構性約束。當乙個圖中最小度小於k時,表明它不滿足結構性約束。
相似度:相似度sim(u,v)表示頂點u和v之間的相似程度。
相似度閾值r:相似度閾值r用於判定兩點是否相似。
相似度計算方式: 相似度的判定方式一般有兩種,一種是使用jaccard相似性來判定兩點基於多重屬性上的相似性。設點u的屬性集合為,點v的屬性集合為,jaccard相似性計算公式為如式(2-1)所示。此時當sim(u,v) ≥ r時表示u和v兩點相似,當sim(u,v) < r時表示u和v兩點不相似。
另一種是使用歐式距離來判定兩點基於空間位置上的相似性,設u、v兩點具有空間位置屬性,則可以計算u、v兩點間的歐式距離,歐幾里德計算公式如式(2-2)所示。此時當sim(u,v) > r時表示u和v兩點不相似,當sim(u,v) ≤ r時表示u和v兩點相似。
相似度的定義以及判定方式需要依據資料的具體屬性特徵進行對應設計,比如乙個資料集中的資料具有經度和緯度兩個資訊,即網路中的點具有經度和維度兩個屬性,此時我們可以將相似度定義為兩點間的距離,而相似度的計算可以使用歐幾里德計算公式來計算,但並不推薦使用計算方法,因為地球是圓形的,歐式距離可以用於比較,但沒有實際意義,此時最好可以根據經緯度計算出兩點間的實際距離。
相似性約束:乙個圖中如果任意兩點都相似,則此圖滿足相似性約束。
(k,r)-core:一種社群模型。如果乙個圖同時滿足結構性約束和相似性約束,那麼此圖為(k,r)-core。其中k為結構性約束閾值,r為參與度約束閾值。
極大(k,r)-core:在圖g中,子圖s是極大(k,r)-core時,不存在s』是乙個(k,r)-core且滿足s』包含s。
實驗目的
依據實際資料構建空間網路。
在空間網路中找出所有極大(k,r)-core。
設計效率比較高的演算法來找出空間網路中所有極大(k,r)-core。
實驗資料
snap平台提供的brigthkite資料集
實驗難點
在空間網路中找出所有(k,r)-core是np-hard問題。在空間網路中找出所有極大(k,r)-core或在空間網路中找出最大(k,r)-core都是np-hard問題。
現有的查詢(k,r)-core的思想是,先簡化空間網路圖,然後再窮舉出所有(k,r)-core,最後在(k,r)-core集合中找出所有極大(k,r)-core。
實驗環境
win10、eclipse、jdk1.8
資料探勘技術簡介
1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需...
資料探勘技術簡介
摘要 資料探勘是目前一種新的重要的研究領域。本文介紹了資料探勘的概念 目的 常用方法 資料探勘過程 資料探勘軟體的評價方法。對資料探勘領域面臨的問題做了介紹和展望。1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又...
2 資料探勘簡介
資料探勘 dm data mining 是乙個跨學科的電腦科學分支,它是用人工智慧 機器學 習 統計學和資料庫的交叉方法在相對較大型的資料集中發現模式的計算過程。資料探勘過程 的總體目標是從乙個資料集中提取資訊,並將其轉換成可理解的結構,以進一步使用。除了原 始分析步驟,它還涉及到資料庫和資料管理方...