写在前面的话:

实例中的所有数据都是在GitHub上下载的,打包下载即可。

地址是:http://github.com/pydata/pydata-book

还有一定要说明的:

我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通。

# coding: utf-8
import pandas as pd
unames = ['user_id','gender','age','occupation','zip']
users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\users.dat', sep='::', header=None, names=unames)
rnmaes = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\\ratings.dat', sep='::', header=None, names=rnmaes)
mnames = ['movie_id','title','genres']
movies = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\movies.dat', sep='::', header=None, names=mnames)

users[:5]
ratings[:5]
movies[:5]

ratings

data = pd.merge(pd.merge(ratings, users), movies)
data.ix[0]
mean_rating = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
mean_rating[:5]
ratings_by_title = data.groupby('title').size()
ratings_by_title[:10]

active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

mean_rating = mean_rating.ix[active_titles]
mean_rating

top_female_rating = mean_rating.sort_index(by='F', ascending=False)
top_female_rating[:10]

mean_rating['diff'] = mean_rating['M'] - mean_rating['F']
sorted_by_diff = mean_rating.sort_index(by='diff')
sorted_by_diff[:15]

sorted_by_diff[::-1][:15]

ratings_std_by_title = data.groupby('title')['rating'].std()
ratings_std_by_title = ratings_by_title.ix[active_titles]
ratings_std_by_title.order(ascending=False)[:10]
ratings_std_by_title

最新文章

  1. try catch中用了 Response.Redirect 引发的线程异常终止
  2. C++ Windows 下 根据进程名获取进程ID 以及该进程下所有窗口的句柄
  3. POJ 3126 Prime Path
  4. Mac下手动安装Chromedriver.exe
  5. 使用VS Code开发ASP.NET Core 应用程序
  6. php 的包管理工具 composer
  7. ServiceController组件控制计算机服务
  8. 基于WebForm+EasyUI的业务管理系统形成之旅 -- 施工计划安排(Ⅶ)
  9. bzoj1211
  10. noi 7219:复杂的整数划分问题
  11. codeforces 417D. Cunning Gena 状压dp
  12. 12C RMAN 备份参考v1
  13. 给ThinkPHP5增加验证码功能
  14. 郑厂长系列故事——排兵布阵 hdu4539(状态压缩DP)
  15. BZOJ 3512: DZY Loves Math IV [杜教筛]
  16. Java集合框架(六)—— Collections工具类
  17. Git 教程(二):提交和回退
  18. Amazon RDS多区域高可用测试
  19. spring整合mybatis、hibernate、logback配置
  20. svn 更新lib库时,报错

热门文章

  1. let与const心智模型
  2. linux下如何获取sd卡中的mbr
  3. LeetCode—— Partition Equal Subset Sum
  4. harbor 管理Helm Chart包
  5. WinCE数据通讯之Web Service分包传输篇
  6. oracle sql - remove a user's all objects
  7. 关于Spring Test 小结
  8. bzoj 3039: 玉蟾宫 单调栈或者悬线法求最大子矩阵和
  9. hiho#1080 更为复杂的买卖房屋姿势 线段树+区间更新
  10. Vue-cli add sass modules