資料分析第一站!

2022-07-18 05:39:10 字數 1314 閱讀 1668

資料分析在現在大資料時代裡,已經成為了不可或缺的一部分。以下介紹對《世界計算機科學技術專業排名前五的大學在頂尖期刊**數》的簡單的資料分析

引入爬蟲和視覺化的第三方庫 

獲取近三年的資料的url,建立兩個空列表,分別儲存大學名稱和所佔比例,cols為確定視覺化的顏色,後面會用到!

建立好爬蟲的框架,這裡不多解釋,都做過爬蟲大作業!

檢查網頁的元素

找到其標籤的特殊點:class和style、id

對網頁的元素進行提取:

將資料儲存到分別建立的兩個空列表中(只需要提取前5個)

各個部分已經編寫完畢,下面編寫主函式 

我採用資料視覺化的方法是繪製餅狀圖

startangle=90的意思是從90度的地方開始畫第一條線

shadow=true的意思是保留陰影

explode的意思是控制某一塊「餅」是否彈出,這裡我不彈出,彈出來不太好看

autopct的意思是建立化成百分數

最後成果是(以2023年為例):

反思:1.在完成這個大作業的時候,最難的部分在於尋找資料,找到了很多統計**上面的資料,上面很多的資料並不是直接用html或者是css直接寫在網頁上的,有很多是直接已經視覺化好了的,很不方便提取(也可能是自己水平不夠),只好選擇了乙個簡單一點的**進行爬取和分析。

2.這個分別分析了年份、大學排名和發表的**數。

3.在這個統計過程中我只統計了前五名大學的統計資料,可是這樣是否可以反映出什麼情況還有待商榷

還有哪些提高:

還可以形成如同地圖一樣的圖表,並且各個國家的優秀大學數量(可惜我不會,流下沒有技術的淚水o(╥﹏╥)o)

菜鳥學習第一站

出來三個月了,才知道沒點過硬的本領是不行的,還好在學校有學過一點東西,要不然現在自學肯定無從入手,說的好像現在知道怎麼辦了一樣,不管怎樣,現在開始好好的努力吧!要不然吃不起飯很丟臉的。我的前端之旅開始了 css樣式篇 transform 旋轉屬性 transform none transform f...

C 第一站 認識C

是乙個簡單的 現代的 通用的 物件導向的程式語言,它是由微軟 microsoft 開發的。c 是專為公共語言基礎結構 cli 設計的。cli 由可執行 和執行時環境組成,允許在不同的計算機平台和體系結構上使用各種高階語言。using system net 框架 net framework c 是 n...

第一站 大連 看海之旅

5月下旬至7月上旬 是大連最舒服的季節 還不是很熱 微風拂面 神清氣爽的感覺 推薦一下旅遊路線吧 個人意見 來大連必去的幾個景點分為兩類 免費的 1.星海灣景區。在星海灣景區你可以來到星海廣場 星海灣浴場 星海公園,這幾個都是免費的,如果想去貝殼博物館和大連現代博物館,則是要收費的。這裡四季都可以來...