假設現在我們有一組從2006年1000部最流行的電影資料,我們想知道這些電影資料中的評分的平均分,導演的人數等資訊,我們應該怎麼獲取?
import獲取電影時長最大值,最小值。pandas as pd
from matplotlib import
pyplot as plt
file_path = "
./imdb-movie-data.csv
"df =pd.read_csv(file_path)
(df.info())
(df.head())
#獲取平均評分
print(df["
rating
"].mean())
#獲取導演的人數
print(len(set(df["
director
"].tolist()))) #
print(len(df["director"].unique()))
#獲取演員的人數
temp_actors_list = df["
actors
"].str.split(", "
).tolist()
actor_list = [i for j in temp_actors_list for i in
j]actor_num =len(set(actor_list))
print(actor_num)
對於這一組電影資料,如果我們想要rating,runtime的分布情況,應該如何呈現資料?
獲取runtime分布情況:
import獲取rating情況:pandas as pd
from matplotlib import
pyplot as plt
file_path = "
./imdb-movie-data.csv
"df =pd.read_csv(file_path)
print(df.head(1))
(df.info())
#rating runtime分布情況
#選擇圖形 直方圖
#準備資料
runtime_data = df["
runtime (minutes)
"].values
max_runtime =runtime_data.max()
min_runtime =runtime_data.min()
num_bin = (max_runtime-min_runtime)//5
#設定圖形的大小
plt.figure(figsize=(20,8),dpi=80)
plt.hist(runtime_data,num_bin)
plt.xticks(range(min_runtime,max_runtime+5,5))
plt.show()
importpandas as pd
from matplotlib import
pyplot as plt
file_path = "
./imdb-movie-data.csv
"df =pd.read_csv(file_path)
print(df.head(1))
(df.info())
#rating runtime分布情況
#選擇圖形 直方圖
#準備資料
runtime_data = df["
rating
"].values
max_runtime =runtime_data.max()
min_runtime =runtime_data.min()
(min_runtime,max_runtime)
print(max_runtime-min_runtime)
num_bin_list = [1.6]
i = 1.6
for m in range(15):
(num_bin_list)
#設定圖形的大小
plt.figure(figsize=(20,8),dpi=80)
plt.hist(runtime_data,num_bin_list)
plt.xticks(num_bin_list)
plt.show()
把字串離散化
1.獲取字串的去重後列表 2.構造全為0的陣列 dataframe columns為字串的列表 3.給全為0的陣列賦值 第一步import pandas as pd import numpy as np df pd.dataframe print df print 40 print df c 0 o...
python統計電影分類(字串離散化案例)
以下兩句是顯示中文的方法 from pylab import mpl.rcparams font.sans serif simhei 有效的方法 file path c users ming desktop dataanalysis master day05 code imdb movie data...
資料分析 series字串離散化
問題 1 假設dataframe中有一列名為type,其字段中內容為a,b,c 等用,隔開的值,如 type a,b,c a,f,x b,c,e 統計type中每個型別出現的次數 並繪圖 import pandas as pd import numpy as np from matplotlib i...