# -*- coding: utf-8 -*-
import pandas as pd
#資料** www.grouplens.org/node/73
unames = ['user_id', 'gender', 'age', 'occupation', 'zip' ]
users = pd.read_table('ml-1m/users.dat', sep='::' , header = none, names = unames )#sep 分隔符
rnames = ['user_id', 'movie_id', 'rating', 'timestamp' ]
ratings = pd.read_table('ml-1m/ratings.dat', sep='::' , header = none, names = rnames )
mnames = ['movie_id', 'title', 'genres' ]
movies = pd.read_table('ml-1m/movies.dat', sep='::' ,header = none, names = mnames )
#print users[:5], ratings[:5], movies[:5]
#合併**
data = pd.merge(pd.merge(ratings, users), movies ) #.merge() 函式用於合併兩個陣列內容到第乙個陣列。
#print data
#按性別計算平均得分
mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')
#print mean_ratings[:5]
#對title分組
#.size得到乙個含有各電影分組大小的series物件
ratings_by_title = data.groupby('title' ).size()
#print ratings_by_title[:10]
active_titles = ratings_by_title.index[ratings_by_title >=250]
#print active_titles
#選取所需行
mean_ratings = mean_ratings.ix[active_titles]
#print mean_ratings
#對f進行降序排列
top_female_ratings = mean_ratings.sort_index(by='f', ascending=false)
#print top_female_ratings
#分歧最大電影
mean_ratings['diff'] = mean_ratings['m'] - mean_ratings['f']
#女性更喜歡
sorted_by_diff = mean_ratings.sort_index(by='diff')
#print sorted_by_diff
#男性更喜歡
#print sorted_by_diff[::-1][:15]
#分歧最大的電影(不分性別)
#根據電影名稱分類的得分資料的標準差
rating_std_by_title = data.groupby('title')['rating'].std()
#根據active_titles進行過濾
rating_std_by_title = rating_std_by_title.ix[active_titles]
#根據值對series進行降序排列
#ascending 表示公升序
print rating_std_by_title.order(ascending=false)[:10]
1 資料分析高數篇
有監督學習 有標籤 無監督學習 無標籤 一 線性回歸 通過已有的資料,進行新資料結果的 有監督學習方式處理 對連續型變數做 叫回歸,對離散型變數做 叫分類 比如有關於天氣的變數 晴,陰,雨。只能是其中單獨乙個,不存在介於兩種之間的,即不能又晴又雨。連續的變數是指取值可以是連續的變數。比如身高,體重等...
1 資料分析
資料分析 1.資料分析定義 2.資料分析的作用 3.資料分析的基本步驟 3.1明確分析目的和思路 3.2資料收集 3.3資料處理 3.4資料分析 過程中的重點,必須確保正確 3.5資料展現 3.6報告撰寫 4.資料分析行業前景 4.1蓬勃發展的趨勢 4.2資料分析師職業要求 5.隨著科技發展帶來的挑...
資料分析 1
獲取瀏覽器標識 useragent 谷歌 開啟瀏覽器頁面,右擊檢查,開啟頁面,點選network開啟頁面,單擊第乙個網頁資訊index.html,頁面拉至底部可找到useragent,複製即可 2.設定響應時間 偽裝使用者瀏覽,爬蟲會被電腦發現啟動反爬蟲,所以要偽裝成使用者 新建查詢 從其他源 從w...