/root/目錄下有top250_f1.txt資料來源,存放著部分影片資訊。具體資料格式如下:
要求如下:
我先說一下遇到的問題:當我把資料賦予索引發現前面總是多出乙個逗號,我看了底層原始碼,研究了一下午,也沒弄好,本來幾行**就結束的問題,被我弄了幾個小時:
思路和問題:
並且資料也在這篇部落格中:
其次第二部我需要對csv檔案加索引,在加索引過程,發現總是多乙個逗號,讓我也很無奈,關鍵我多加乙個索引也不行,少加乙個索引還是對應不上,只能往後移一位了。然後把我需要的三個列生成乙個檔案,三個列中需要排名的按照排名的前幾個輸出:
import pandas as pd
df_index = pd.read_csv("shuju.csv",header=none,names=['num','','direcor','role','init_year','area','genre','rating_num','comment_num','comment','url'])#加索引
df = df_index.to_csv("data.csv",sep=',')#把有索引的重新寫入乙個檔案中
df = pd.read_csv("data.csv")#讀取我剛剛轉換有索引的資料
print(df[["num","area","rating_num","genre"]].to_csv("newdata.csv"))#再拿到我的三個索引的資料,事實上比賽結果只要2個索引資料我弄多了,不過都一樣的
df = pd.read_csv("newdata.csv")#讀取我指定索引的資料
解法二:我發現我的方法麻煩了,下面是對txt,並且分隔符進行操作的**:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import series,dataframe
df = pd.read_csv("d:\data\\top250_f1.txt",encoding='utf8',delimiter='\t',sep=',')
# print(df)
# print(df["title"])
print(df[["rating_num","title","genre"]].sort_values(by='genre',ascending=false))
解法三:我發現我的方法麻煩了,下面是對txt,並且分隔符進行操作的**:
import pandas as pd讀取檔案的操作:import numpy as np
from pandas import dataframe,series
df = pd.read_csv("data.csv")
print(type(df))#查一下型別
#指定獲取某一列的兩種方式
print(df['comment_num'])
print(df.role)
#生成新的一列
df_new = dataframe(df,columns=['title','rating_num', 'comment_num','index'])
#為某一列不存在的值賦值
df_new['index'] = range(0,250)
print(df_new['index'])
#指定其中的列的值的改變,比如某個值為空值,下面這句話的意思就是,把index這列的索引為1和2的賦值為100,200,其他的行預設為pandas填充
df_new['index'] = pd.series([100,200],index=[1,2])
print(df_new['index'])
#按照新生成的列其中的某個列的值進行排序,這裡是電影的評分
print(df_new.sort_values(by='rating_num',ascending=false).head(20))
python進行資料分析
python進行資料分析 1 import numpy as np arr np.random.randn 4,4 arr1 np.where arr 0,2,1 arr1.min arr1.max arr1.mean arr1.cumsum 0 arr1.cumsum 1 arr1.mean 0 ...
利用python進行資料分析
目錄 10 minutes to pandas 翻譯 pandas中loc iloc ix的區別 pandas dropna函式 pandas中dataframe的stack unstack 和pivot 方法的對比 pandas中關於set index和reset index的用法 python匿...
利用python進行資料分析
利用python進行資料分析,需要了解一些基本的方法,比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的資料進行回歸分析,並得出相對精確地結論。這部分需要掌握的知識點如下 回歸分析 線性回歸 邏輯回歸 基本的分類演算法 決策樹 隨機森林 樸素貝葉斯 基本的聚類演算法 k mean...