現在我們有一組從2023年到2023年1000部最流行的電影資料
首先獲取匯入包,獲取資料
%matplotlib inline
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
#檔案的路徑
path =
"./data/imdb-movie-data.csv"
#讀取檔案
df = pd.read_csv(path)
我們想知道這些電影資料中評分的平均分,導演的人數等資訊,我們應該怎麼獲取?得出評分的平均分
df[
"rating"
].mean(
)
得出導演人數資訊
## 導演的人數
# df["director"].unique().shape[0]
np.unique(df[
"director"])
.shape[0]
644
對於這一組電影資料,如果我們想rating,runtime (minutes)的分布情況,應該如何呈現資料?直接呈現,以直方圖的形式
)修改刻度的間隔
# 求出最大最小值
max_ = df[
"rating"].
max(
)min_ = df[
"rating"].
min(
)# 生成刻度列表
t1 = np.linspace(min_,max_,num=21)
# [ 1.9 2.255 2.61 2.965 3.32 3.675 4.03 4.385 4.74 5.095 5.45 5.805 6.16 6.515 6.87 7.225 7.58 7.935 8.29 8.645 9. ]
# 修改刻度
plt.xticks(t1)
# 新增網格
)
修改間隔
# 求出最大最小值
max_ = df[
"runtime (minutes)"].
max(
)min_ = df[
"runtime (minutes)"].
min(
)# # 生成刻度列表
t1 = np.linspace(min_,max_,num=21)
# 修改刻度
plt.xticks(np.linspace(min_,max_,num=21)
)# 新增網格
對於這一組電影資料,如果我們希望統計電影分類(genre)的情況,應該如何處理資料?思路分析
1、建立乙個全為0的dataframe,列索引置為電影的分類,temp_df
# 進行字串分割
temp_list =
[i.split(
",")
for i in df[
"genre"]]
# 獲取電影的分類
genre_list = np.unique(
[i for j in temp_list for i in j]
)# 增加新的列
temp_df = pd.dataframe(np.zeros(
[df.shape[0]
,genre_list.shape[0]
]),columns=genre_list)
2、遍歷每一部電影,temp_df中把分類出現的列的值置為1
for i in
range
(1000):
#temp_list[i] ['action','adventure','animation']
temp_df.ix[i,temp_list[i]]=
1print
(temp_df.
sum(
).sort_values(
))
3、求和,繪圖
sed命令實現檔案內容替換總結案例
sed i s aaaaa bbbbb g home local payment biz service env test.txt sed i s htxk.htxkaaaaa g home local payment biz service env test.txt 案例使用 專案中經常需要更改資...
linux運維人員的成功面試總結案例分享
這是學生成功拿到offer後,撰寫的面試總結分享給其他的20期小夥伴,在這裡也分享給所有51的博友,希望對大家有幫助!目錄.1 一 前提準備 1 二 面試注意事項 2 三 面試過程.2 1 面試題 2 2 技術面試.2 3 人事面試.3 4 最後乙個大boss面試的我.3 5 結尾.3 四 總結 3...
linux運維人員的成功面試總結案例分享
這是學生成功拿到offer後,撰寫的面試總結分享給其他的20期小夥伴,在這裡也分享給所有51的博友,希望對大家有幫助!目錄.1 一 前提準備 1 二 面試注意事項 2 三 面試過程.2 1 面試題 2 2 技術面試.2 3 人事面試.3 4 最後乙個大boss面試的我.3 5 結尾.3 四 總結 3...