使用python進行資料分析之電影評分

2021-09-25 12:38:59 字數 2248 閱讀 1960

/root/目錄下有top250_f1.txt資料來源,存放著部分影片資訊。具體資料格式如下:

要求如下:

我先說一下遇到的問題:當我把資料賦予索引發現前面總是多出乙個逗號,我看了底層原始碼,研究了一下午,也沒弄好,本來幾行**就結束的問題,被我弄了幾個小時:

思路和問題:

並且資料也在這篇部落格中:

其次第二部我需要對csv檔案加索引,在加索引過程,發現總是多乙個逗號,讓我也很無奈,關鍵我多加乙個索引也不行,少加乙個索引還是對應不上,只能往後移一位了。然後把我需要的三個列生成乙個檔案,三個列中需要排名的按照排名的前幾個輸出:

import pandas as pd

df_index = pd.read_csv("shuju.csv",header=none,names=['num','','direcor','role','init_year','area','genre','rating_num','comment_num','comment','url'])#加索引

df = df_index.to_csv("data.csv",sep=',')#把有索引的重新寫入乙個檔案中

df = pd.read_csv("data.csv")#讀取我剛剛轉換有索引的資料

print(df[["num","area","rating_num","genre"]].to_csv("newdata.csv"))#再拿到我的三個索引的資料,事實上比賽結果只要2個索引資料我弄多了,不過都一樣的

df = pd.read_csv("newdata.csv")#讀取我指定索引的資料

解法二:我發現我的方法麻煩了,下面是對txt,並且分隔符進行操作的**:

import numpy as np

import  pandas as pd

import matplotlib.pyplot as plt

from pandas import series,dataframe

df = pd.read_csv("d:\data\\top250_f1.txt",encoding='utf8',delimiter='\t',sep=',')

# print(df)

# print(df["title"])

print(df[["rating_num","title","genre"]].sort_values(by='genre',ascending=false))

解法三:我發現我的方法麻煩了,下面是對txt,並且分隔符進行操作的**:

import pandas as pd

import numpy as np

from pandas import dataframe,series

df = pd.read_csv("data.csv")

print(type(df))#查一下型別

#指定獲取某一列的兩種方式

print(df['comment_num'])

print(df.role)

#生成新的一列

df_new = dataframe(df,columns=['title','rating_num', 'comment_num','index'])

#為某一列不存在的值賦值

df_new['index'] = range(0,250)

print(df_new['index'])

#指定其中的列的值的改變,比如某個值為空值,下面這句話的意思就是,把index這列的索引為1和2的賦值為100,200,其他的行預設為pandas填充

df_new['index'] = pd.series([100,200],index=[1,2])

print(df_new['index'])

#按照新生成的列其中的某個列的值進行排序,這裡是電影的評分

print(df_new.sort_values(by='rating_num',ascending=false).head(20))

讀取檔案的操作:

python進行資料分析

python進行資料分析 1 import numpy as np arr np.random.randn 4,4 arr1 np.where arr 0,2,1 arr1.min arr1.max arr1.mean arr1.cumsum 0 arr1.cumsum 1 arr1.mean 0 ...

利用python進行資料分析

目錄 10 minutes to pandas 翻譯 pandas中loc iloc ix的區別 pandas dropna函式 pandas中dataframe的stack unstack 和pivot 方法的對比 pandas中關於set index和reset index的用法 python匿...

利用python進行資料分析

利用python進行資料分析,需要了解一些基本的方法,比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的資料進行回歸分析,並得出相對精確地結論。這部分需要掌握的知識點如下 回歸分析 線性回歸 邏輯回歸 基本的分類演算法 決策樹 隨機森林 樸素貝葉斯 基本的聚類演算法 k mean...