06 統計方法和字串離散化

2022-07-09 12:57:09 字數 2467 閱讀 9265

假設現在我們有一組從20061000部最流行的電影資料,我們想知道這些電影資料中的評分的平均分,導演的人數等資訊,我們應該怎麼獲取?

import

pandas as pd

from matplotlib import

pyplot as plt

file_path = "

./imdb-movie-data.csv

"df =pd.read_csv(file_path)

print

(df.info())

print

(df.head())

#獲取平均評分

print(df["

rating

"].mean())

#獲取導演的人數

print(len(set(df["

director

"].tolist()))) #

print(len(df["director"].unique()))

#獲取演員的人數

temp_actors_list = df["

actors

"].str.split(", "

).tolist()

actor_list = [i for j in temp_actors_list for i in

j]actor_num =len(set(actor_list))

print(actor_num)

獲取電影時長最大值,最小值。

對於這一組電影資料,如果我們想要ratingruntime的分布情況,應該如何呈現資料?

獲取runtime分布情況:

import

pandas as pd

from matplotlib import

pyplot as plt

file_path = "

./imdb-movie-data.csv

"df =pd.read_csv(file_path)

print(df.head(1))

print

(df.info())

#rating runtime分布情況

#選擇圖形 直方圖

#準備資料

runtime_data = df["

runtime (minutes)

"].values

max_runtime =runtime_data.max()

min_runtime =runtime_data.min()

num_bin = (max_runtime-min_runtime)//5

#設定圖形的大小

plt.figure(figsize=(20,8),dpi=80)

plt.hist(runtime_data,num_bin)

plt.xticks(range(min_runtime,max_runtime+5,5))

plt.show()

獲取rating情況:

import

pandas as pd

from matplotlib import

pyplot as plt

file_path = "

./imdb-movie-data.csv

"df =pd.read_csv(file_path)

print(df.head(1))

print

(df.info())

#rating runtime分布情況

#選擇圖形 直方圖

#準備資料

runtime_data = df["

rating

"].values

max_runtime =runtime_data.max()

min_runtime =runtime_data.min()

print

(min_runtime,max_runtime)

print(max_runtime-min_runtime)

num_bin_list = [1.6]

i = 1.6

for m in range(15):

print

(num_bin_list)

#設定圖形的大小

plt.figure(figsize=(20,8),dpi=80)

plt.hist(runtime_data,num_bin_list)

plt.xticks(num_bin_list)

plt.show()

把字串離散化

1.獲取字串的去重後列表 2.構造全為0的陣列 dataframe columns為字串的列表 3.給全為0的陣列賦值 第一步import pandas as pd import numpy as np df pd.dataframe print df print 40 print df c 0 o...

python統計電影分類(字串離散化案例)

以下兩句是顯示中文的方法 from pylab import mpl.rcparams font.sans serif simhei 有效的方法 file path c users ming desktop dataanalysis master day05 code imdb movie data...

資料分析 series字串離散化

問題 1 假設dataframe中有一列名為type,其字段中內容為a,b,c 等用,隔開的值,如 type a,b,c a,f,x b,c,e 統計type中每個型別出現的次數 並繪圖 import pandas as pd import numpy as np from matplotlib i...