在原始arxiv資料集中**作者authors欄位是乙個字串格式,其中每個作者使用逗號進行分隔分,所以我們我們首先需要完成以下步驟:
在python中字串是最常用的資料型別,可以使用引號('或")來建立字串。python中所有的字元都使用字串儲存,可以使用方括號來擷取字串。如下例項:
// an highlighted block
#**部分
var1 =
'hello datawhale!'
var2 =
"python everwhere!"
print
("var1[-10:]: "
, var1[-10
:])print
("var2[1:5]: "
, var2[0:
7])#結果
var1[-10
:]: datawhale!
var2[1:
5]: python
// an highlighted block
# 匯入所需的package
import seaborn as sns #用於畫圖
from bs4 import beautifulsoup #用於爬取arxiv的資料
import re #用於正規表示式,匹配字串的模式
import requests #用於網路連線,傳送網路請求,使用網域名稱獲取對應資訊
import json #讀取資料,我們的資料為json格式的
import pandas as pd #資料處理,資料分析
import matplotlib.pyplot as plt #畫圖工具
// an highlighted block
def readarxivfile
(path, columns=
['id'
,'submitter'
,'authors'
,'title'
,'comments'
,'journal-ref'
,'doi'
,'report-no'
,'categories'
,'license'
,'abstract'
,'versions'
,'update_date'
,'authors_parsed'
], count=none)
:'''
定義讀取檔案的函式
path: 檔案路徑
columns: 需要選擇的列
count: 讀取行數
'''data =
with
open
(path,
'r')
as f:
for idx, line in
enumerate
(f):
if idx == count:
break
d = json.
loads
(line)
d =data.
(d) data = pd.
dataframe
(data)
return data
data =
readarxivfile
('arxiv-metadata-oai-2019.json',[
'id'
,'authors'
,'categories'
,'authors_parsed'],
100000
)
// an highlighted block
# 選擇類別為stat.
ml下面的**(統計大類機器學習小類)
data2 = data[data[
'categories'].
(lambda x:
'stat.ml'
in x)
]# 拼接所有作者
all_authors =
sum(data2[
'authors_parsed'],
)
// an highlighted block
# 拼接所有的作者
authors_names =
[' '
.join
(x)for x in all_authors]
authors_names = pd.
dataframe
(authors_names)
# 根據作者頻率繪製直方圖
plt.
figure
(figsize=(10
,6))
authors_names[0]
.value_counts()
.head(10
).plot
(kind=
'barh'
)# 修改圖配置
繪製得到的結果,從結果看出這些都是華人或者中國姓氏~
spark資料分析 2
首先來理解 0,0 這個初始值 說明aggregate 方法會返回乙個元組,而因為是分布式集群來進行分析,所以第乙個lambda表示式是每個worker所執行的,比如我們有三個worker,那麼他們得到的結果分別是 14,2 8,2 14,2 而第二個lambda表示式則是driver把那三個wor...
資料分析筆試(2)
1 kmo值在 範圍內,因子分析才是有效的。解答 kmo檢驗統計量是用於比較變數間簡單相關係數和偏相關係數的指標,主要用於多元統計的因子分析。當所有變數的簡單相關係數的平方和遠遠大於偏相關係數的平方和時,kmo值越接近於1,原有變數越適合做因子分析。0.7 0.8適合,0.8 0.9很適合,0.9 ...
貝葉斯資料分析 週末說說資料分析 2
這是乙份關於 深入淺出資料分析 的讀書筆記。比較枯燥,不過我盡量說得簡單,感興趣就看看。上個周我們聊到了這本書講到的一到三章,第一章呢是講資料分析的一些理念,聊到資料分析開始前要了解資料背後的故事,了解資料提供者的心智模型 說白了也就是資料管理者關於資料的看法 然後才開始分析資料 第二章講到了企業經...