給出一電影檔案,算出電影genre的電影型別。
# coding=utf-8
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = "./imdb-movie-data.csv"
df = pd.read_csv(file_path)
print(df["genre"].head(3))
#統計分類的列表
temp_list = df["genre"].str.split(",").tolist() #[,,]
genre_list = list(set([i for j in temp_list for i in j]))
#構造全為0的陣列
zeros_df = pd.dataframe(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
# print(zeros_df)
#給每個電影出現分類的位置賦值1
for i in range(df.shape[0]):
#zeros_df.loc[0,["sci-fi","mucical"]] = 1
zeros_df.loc[i,temp_list[i]] = 1
# print(zeros_df.head(3))
#統計每個分類的電影的數量和
genre_count = zeros_df.sum(axis=0)
print(genre_count)
#排序genre_count = genre_count.sort_values()
_x = genre_count.index
_y = genre_count.values
#畫圖plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.4,color="orange")
plt.xticks(range(len(_x)),_x)
plt.show()
爬取豆瓣電影所有型別的電影資訊
把文字儲存在本地 filename 表示文字的路徑,操作文字的方式許可權 with open filename,a encoding utf 8 as f f.write html f.write n def loadnextlink url,path request urllib.request....
例子 統計電影型別的個數,以及用bar繪製出來表示
import pandas as pd import numpy as np from matplotlib import pyplot as plt 獲取各種電影型別的數量 file imdb movie data.csv data pd.read csv file genre data genr...
基於使用者喜好以及電影型別的電影推薦演算法
電影推薦是推薦演算法應用的重要場景。其中比較受歡迎的是基於內容的推薦演算法以及協同濾波演算法。其中基於內容的推薦演算法通過分析電影的標題,演員等資訊對使用者進行推薦。而協同濾波演算法的原理是物理類聚,人以群分,將興趣愛好相同的人聚集起來,向他們推薦互相喜歡的電影。但是這兩種演算法在資訊不全時會無法使...