資料分析 MovieLen 1M 資料集

2021-08-16 04:28:52 字數 1924 閱讀 1724

# -*- coding: utf-8 -*-  

import pandas as pd

#資料** www.grouplens.org/node/73

unames = ['user_id', 'gender', 'age', 'occupation', 'zip' ]

users = pd.read_table('ml-1m/users.dat', sep='::' , header = none, names = unames )#sep 分隔符

rnames = ['user_id', 'movie_id', 'rating', 'timestamp' ]

ratings = pd.read_table('ml-1m/ratings.dat', sep='::' , header = none, names = rnames )

mnames = ['movie_id', 'title', 'genres' ]

movies = pd.read_table('ml-1m/movies.dat', sep='::' ,header = none, names = mnames )

#print users[:5], ratings[:5], movies[:5]

#合併**

data = pd.merge(pd.merge(ratings, users), movies ) #.merge() 函式用於合併兩個陣列內容到第乙個陣列。

#print data

#按性別計算平均得分

mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')

#print mean_ratings[:5]

#對title分組

#.size得到乙個含有各電影分組大小的series物件

ratings_by_title = data.groupby('title' ).size()

#print ratings_by_title[:10]

active_titles = ratings_by_title.index[ratings_by_title >=250]

#print active_titles

#選取所需行

mean_ratings = mean_ratings.ix[active_titles]

#print mean_ratings

#對f進行降序排列

top_female_ratings = mean_ratings.sort_index(by='f', ascending=false)

#print top_female_ratings

#分歧最大電影

mean_ratings['diff'] = mean_ratings['m'] - mean_ratings['f']

#女性更喜歡

sorted_by_diff = mean_ratings.sort_index(by='diff')

#print sorted_by_diff

#男性更喜歡

#print sorted_by_diff[::-1][:15]

#分歧最大的電影(不分性別)

#根據電影名稱分類的得分資料的標準差

rating_std_by_title = data.groupby('title')['rating'].std()

#根據active_titles進行過濾

rating_std_by_title = rating_std_by_title.ix[active_titles]

#根據值對series進行降序排列

#ascending 表示公升序

print rating_std_by_title.order(ascending=false)[:10]

1 資料分析高數篇

有監督學習 有標籤 無監督學習 無標籤 一 線性回歸 通過已有的資料,進行新資料結果的 有監督學習方式處理 對連續型變數做 叫回歸,對離散型變數做 叫分類 比如有關於天氣的變數 晴,陰,雨。只能是其中單獨乙個,不存在介於兩種之間的,即不能又晴又雨。連續的變數是指取值可以是連續的變數。比如身高,體重等...

1 資料分析

資料分析 1.資料分析定義 2.資料分析的作用 3.資料分析的基本步驟 3.1明確分析目的和思路 3.2資料收集 3.3資料處理 3.4資料分析 過程中的重點,必須確保正確 3.5資料展現 3.6報告撰寫 4.資料分析行業前景 4.1蓬勃發展的趨勢 4.2資料分析師職業要求 5.隨著科技發展帶來的挑...

資料分析 1

獲取瀏覽器標識 useragent 谷歌 開啟瀏覽器頁面,右擊檢查,開啟頁面,點選network開啟頁面,單擊第乙個網頁資訊index.html,頁面拉至底部可找到useragent,複製即可 2.設定響應時間 偽裝使用者瀏覽,爬蟲會被電腦發現啟動反爬蟲,所以要偽裝成使用者 新建查詢 從其他源 從w...