《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集
2024-10-18 18:27:47
写在前面的话:
实例中的所有数据都是在GitHub上下载的,打包下载即可。
地址是:http://github.com/pydata/pydata-book
还有一定要说明的:
我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通。
# coding: utf-8
import pandas as pd
unames = ['user_id','gender','age','occupation','zip']
users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\users.dat', sep='::', header=None, names=unames)
rnmaes = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\\ratings.dat', sep='::', header=None, names=rnmaes)
mnames = ['movie_id','title','genres']
movies = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\movies.dat', sep='::', header=None, names=mnames)
users[:5]
ratings[:5]
movies[:5]
ratings
data = pd.merge(pd.merge(ratings, users), movies)
data.ix[0]
mean_rating = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
mean_rating[:5]
ratings_by_title = data.groupby('title').size()
ratings_by_title[:10]
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles
mean_rating = mean_rating.ix[active_titles]
mean_rating
top_female_rating = mean_rating.sort_index(by='F', ascending=False)
top_female_rating[:10]
mean_rating['diff'] = mean_rating['M'] - mean_rating['F']
sorted_by_diff = mean_rating.sort_index(by='diff')
sorted_by_diff[:15]
sorted_by_diff[::-1][:15]
ratings_std_by_title = data.groupby('title')['rating'].std()
ratings_std_by_title = ratings_by_title.ix[active_titles]
ratings_std_by_title.order(ascending=False)[:10]
ratings_std_by_title
最新文章
- try catch中用了 Response.Redirect 引发的线程异常终止
- C++ Windows 下 根据进程名获取进程ID 以及该进程下所有窗口的句柄
- POJ 3126 Prime Path
- Mac下手动安装Chromedriver.exe
- 使用VS Code开发ASP.NET Core 应用程序
- php 的包管理工具 composer
- ServiceController组件控制计算机服务
- 基于WebForm+EasyUI的业务管理系统形成之旅 -- 施工计划安排(Ⅶ)
- bzoj1211
- noi 7219:复杂的整数划分问题
- codeforces 417D. Cunning Gena 状压dp
- 12C RMAN 备份参考v1
- 给ThinkPHP5增加验证码功能
- 郑厂长系列故事——排兵布阵 hdu4539(状态压缩DP)
- BZOJ 3512: DZY Loves Math IV [杜教筛]
- Java集合框架(六)—— Collections工具类
- Git 教程(二):提交和回退
- Amazon RDS多区域高可用测试
- spring整合mybatis、hibernate、logback配置
- svn 更新lib库时,报错