總結day1
今天是參加datawhale——21期資料分析組隊學習的第一天,在參加這個組隊學習之前我心裡是很猶豫的,因為我的python基礎不是很好,雖然我自學了python基礎,但是我還沒有真正用到案例上的經歷,並且很多東西因為用的少,學習的時間長了有點淡忘了,如果我以後要從事資料分析類的工作的話幾乎就沒有機會了,雖然我一直有好好學習資料探勘和資料分析的打算,那麼參加這個組隊學習就是乙個開始吧。不管怎麼樣,15天的學習我一定會堅持下來的。
雖然每天的學習計畫大概是3-5個小時,可能我基礎還是有點太差了,又或者我把事情想的簡單了,晚上從7點多開始學習,目前為止,我大概了解了一下這次學習會用到的庫,這次會用到的庫還是挺多的,下面會介紹,除了requests、json、matplotlib之前有用到,其他的都沒有用過,因此我了解了一下其他的模組。最後我想嘗試一下從網頁爬取資料,但是沒有成功,這個任務留給明天吧。
**如下(示例):
import seaborn as sns #用於畫圖
from bs4 import beautifulsoup #用於爬取arxiv的資料
import re #用於正規表示式,匹配字串的模式
import requests #用於網連線,傳送網路請求,使用網域名稱獲取對應資訊
import json #讀取資料,我們的資料為json格式的
import pandas as pd #資料處理,資料分析
import matplotlib.pyplot as plt #畫圖工具
**如下(示例):
url =
'' #資料****
req = requests.
get(url) #用requests獲取資料
filename =
"arxiv-metadata-oai-snapshot.json"
with open (filename,
'w') as f_obj:
json.
dump
(req,f_obj) #將資料寫成json格式
# 讀入據
data =
#初始化
#使用with語句優勢:1.自動關閉檔案控制代碼;2.自動顯示(處理)檔案讀取資料異常
with open
(filename,
'r') as f:
for line in f:
data.
(json.
loads
(line)
)data = pd.
dataframe
(data) #將list變為dataframe格式,方便使用pandas進行分析
data.shape #顯示資料大小
該處使用的url網路請求的資料。
明天一定要改好資料讀取部分!繼續加油!
Datawhale 第20期 資料視覺化Task1
matplotlib的影象是畫在figure 如windows,jupyter窗體 上的,每乙個figure又包含了乙個或多個axes 乙個可以指定座標系的子區域 最簡單的建立figure以及axes的方式是通過pyplot.subplots命令,建立axes以後,可以使用axes.plot繪製最簡...
第 39 期 資料分段討論
現代計算機一般都有多 cpu 核,而日益廣泛應用的固態硬碟也有較強的併發能力,這些硬體資源都為平行計算提供了有力的保證。不過,要實現平行計算還需要有較好的資料分段技術,也就是能方便地把待計算的資料拆分成若干部分,讓每個執行緒 或程序,這裡以多執行緒為例討論,多程序情況是類似的 分別處理。設計資料分段...
日期資料操作第1期 datetime庫
日期資料操作挺重要的,之前分享過 python中處理日期時間庫的使用方法 arrow日期時間處理庫 現在覺得日期資料的操作挺重要的,準備分割成小知識點,連續更新幾天。今天更新第一期 datetime庫 日期時間類,常用的引數包含year month day hour minute second mi...