Task 作者資訊關聯

2021-10-17 12:38:45 字數 3461 閱讀 1921

任務說明

學習主題:作者關聯(資料建模任務),對**作者關係進行建模,統計最常出現的作者關係;

學習內容:構建作者關係圖,挖掘作者關係

學習成果:**作者知識圖譜、圖關係挖掘

資料處理步驟

圖型別圖統計指標

迪傑斯特拉路徑:.從乙個源點到其它各點的最短路徑,可使用迪傑斯特拉演算法來求最短路徑;

連通圖:在乙個無向圖 g 中,若從頂點i到頂點j有路徑相連,則稱i和j是連通的。如果 g 是有向圖,那麼連線i和j的路徑中所有的邊都必須同向。如果圖中任意兩點都是連通的,那麼圖被稱作連通圖。如果此圖是有向圖,則稱為強連通圖。

對於其他圖演算法,可以在networkx和igraph兩個庫中找到。

具體**以及講解

首先讀取我們想要的資料:

# 匯入所需的package

import seaborn as sns #用於畫圖

from bs4 import beautifulsoup #用於爬取arxiv的資料

import re #用於正規表示式,匹配字串的模式

import requests #用於網路連線,傳送網路請求,使用網域名稱獲取對應資訊

import json #讀取資料,我們的資料為json格式的

import pandas as pd #資料處理,資料分析

import matplotlib.pyplot as plt #畫圖工具

def

readarxivfile

(path, columns=

['id'

,'submitter'

,'authors'

,'title'

,'comments'

,'journal-ref'

,'doi'

,'report-no'

,'categories'

,'license'

,'abstract'

,'versions'

,'update_date'

,'authors_parsed'

], count=

none):

''' 定義讀取檔案的函式

path: 檔案路徑

columns: 需要選擇的列

count: 讀取行數

'''data =

with

open

(path,

'r')

as f:

for idx, line in

enumerate

(f):

if idx == count:

break

d = json.loads(line)

d =data = pd.dataframe(data)

return data

data = readarxivfile(

'arxiv-metadata-oai-snapshot.json',[

'id'

,'authors_parsed'],

200000

)

import networkx as nx 

# 建立無向圖

g = nx.graph(

)# 只用五篇**進行構建

for row in data.iloc[

:500

].itertuples():

authors = row[2]

authors =

[' '

.join(x[:-

1])for x in authors]

# 第乙個作者 與 其他作者鏈結

for author in authors[1:

]:g.add_edge(authors[0]

,author)

# 新增節點2,3並鏈結23節點

# 將作者關係圖進行繪製:

如果我們500片**構建圖,則可以得到更加完整作者關係,並選擇最大聯通子圖進行繪製,折線圖為子圖節點度值。

Task05 作者資訊關聯

將作者列表進行處理,並完成統計。具體步驟如下 圖是複雜網路研究中的乙個重要概念。graph是用點和線來刻畫離散事物集合中的每對事物間以某種方式相聯絡的數學模型。graph在現實世界中隨處可見,如交通運輸圖 旅遊圖 流程圖等。利用圖可以描述現實生活中的許多事物,如用點可以表示交叉口,點之間的連線表示路...

DateWhale作業 task5 作者資訊關聯

1.匯入相關包 匯入所需的package import seaborn as sns 用於畫圖 from bs4 import beautifulsoup 用於爬取arxiv的資料 import re 用於正規表示式,匹配字串的模式 import requests 用於網路連線,傳送網路請求,使用網...

資料分析任務五 作者資訊關聯

採用知識點 圖論 所用python庫 networkx networkx的一些操作 學習主題 作者關聯 資料建模任務 對 作者關係進行建模,統計最常出現的作者關係 學習內容 構建作者關係圖,挖掘作者關係 學習成果 作者知識圖譜 圖關係挖掘 將作者列表進行處理,並完成統計。具體步驟如下 將 第一作者與...