项目目标:

Boston Public Schools Geo数据是来自于Boston地区的公共学校的数据,具体描述了学校的坐标,名字,类型等。基于此数据,我们可以学习一些基本的Python数据分析的方法。例如,研究学校的分布情况,类型统计等。

数据集介绍:

数据集的介绍如下,其中比较重要的字段有X,Y坐标,ADDRESS地址,ZIPCODE,School类型

Data columns (total 21 columns):
X 131 non-null float64
Y 131 non-null float64
OBJECTID_1 131 non-null int64
OBJECTID 131 non-null int64
BLDG_ID 131 non-null int64
BLDG_NAME 131 non-null object
ADDRESS 131 non-null object
CITY 131 non-null object
ZIPCODE 131 non-null int64
CSP_SCH_ID 131 non-null int64
SCH_ID 131 non-null int64
SCH_NAME 131 non-null object
SCH_LABEL 131 non-null object
SCH_TYPE 131 non-null object
SHARED 131 non-null object
COMPLEX 131 non-null object
Label 131 non-null int64
TLT 131 non-null int64
PL 131 non-null object
POINT_X 131 non-null float64
POINT_Y 131 non-null float64

关键代码实现:

  1. 加载数据

    schools = pd.read_csv('../input/Public_Schools.csv')
    schools.info()

    可以看到数据字段如下,一共有21个字段,其中有9个Object类型,4个float64, 8个int64

    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 131 entries, 0 to 130
    Data columns (total 21 columns):
    X 131 non-null float64
    Y 131 non-null float64
    OBJECTID_1 131 non-null int64
    OBJECTID 131 non-null int64
    BLDG_ID 131 non-null int64
    BLDG_NAME 131 non-null object
    ADDRESS 131 non-null object
    CITY 131 non-null object
    ZIPCODE 131 non-null int64
    CSP_SCH_ID 131 non-null int64
    SCH_ID 131 non-null int64
    SCH_NAME 131 non-null object
    SCH_LABEL 131 non-null object
    SCH_TYPE 131 non-null object
    SHARED 131 non-null object
    COMPLEX 131 non-null object
    Label 131 non-null int64
    TLT 131 non-null int64
    PL 131 non-null object
    POINT_X 131 non-null float64
    POINT_Y 131 non-null float64
    dtypes: float64(4), int64(8), object(9)
    memory usage: 21.6+ KB


    2.接下来,探索数据的缺失值

    schools.isnull().any() 

    可以看到,数据没有缺失值

     X False
    Y False
    OBJECTID_1 False
    OBJECTID False
    BLDG_ID False
    BLDG_NAME False
    ADDRESS False
    CITY False
    ZIPCODE False
    CSP_SCH_ID False
    SCH_ID False
    SCH_NAME False
    SCH_LABEL False
    SCH_TYPE False
    SHARED False
    COMPLEX False
    Label False
    TLT False
    PL False
    POINT_X False
    POINT_Y False
    dtype: bool
  2. 接下来,Count frequency of schools in each city

     schools_per_city = schools['CITY'].value_counts()
    sns.set()
    plt.rcParams['figure.figsize'] = [20, 7]
    sns.barplot(x=schools_per_city.index, y=schools_per_city.get_values())

可以看到不同地区的公立学校不同数量

  1. 按照ZIPCode统计学校情况

     school_zipcode = schools['ZIPCODE'].value_counts() sns.set() 
    2 sns.barplot(x=school_zipcode.index, y=school_zipcode.get_values())

未完待续~  欢迎大家关注我的公众号,“思享会Club”,获取该内容资源。

最新文章

  1. python之路二十
  2. 通过扩展让ASP.NET Web API支持W3C的CORS规范
  3. PHP正则表达式详解(二)
  4. ssh 不能连上服务器 hosts.deny没有没限制ip 找不到什么原因
  5. HyperDock,让Mac的窗口飞
  6. Session超时处理
  7. PHP+mysql常用类库
  8. 小课堂Week8 例外处理设计的逆袭Part1
  9. C#遍历窗体控件(原文出自http://www.liangshunet.com/ca/201403/286434593.htm)
  10. C# 实现将PDF转文本的功能
  11. HDU_2036——多边形面积,行列式计算
  12. (3)tomcat源代码分析环境的搭建
  13. Javascript进阶篇——(流程控制语句)笔记整理
  14. Linux----mktemp命令的用法
  15. ExtJS002Window创建
  16. GPS坐标互转:WGS-84(GPS)、GCJ-02(Google地图)、BD-09(百度地图)[转]
  17. WEB服务器如何选择 Apache or Nginx?
  18. 1.如何安装ubuntu
  19. 201521123010 《Java程序设计》第2周学习总结
  20. jq 中each的用法 (share)

热门文章

  1. 前端基础-CSS的属性相关设置
  2. 关于ORA-00257: archiver error. Connect internal only, until freed 错误的处理方法
  3. cop2000实现补码两位乘
  4. ABAP术语-RFC (Remote Function Call)
  5. pom.xml文件报MavenArchiver错误 org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject, org.apache.maven.archiver.MavenArchiveConfiguration)
  6. Python入门 —— 01简介
  7. AppleScript 快速入门
  8. JSON与Delphi Object的互换
  9. exynos4412—UART裸板复习
  10. CentOS6升级Python2.6到3.7,错误处理[No module named &#39;_ctypes&#39;]