掌握Spark机器学习库-06-基础统计部分
2024-09-06 23:46:50
说明
本章主要讲解基础统计部分,包括基本统计、假设检验、相关系数等
数据集
数据集有两个文件,分别是:
- beijing.txt 北京历年降水量,不带年份
- beijing2.txt 北京历年降水量,带年份
源代码
源代码比较少,故在此给出:
基础统计
val txt = sc.textFile("beijing.txt")
val data = txt.flatMap(_.split(",")).map(value => Vectors.dense(value.toDouble))
Statistics.colStats(data)
一致性
val txt = sc.textFile("beijing2.txt")
val data = txt.flatMap(_.split(",")).map(_.toDouble)
val years = data.filter(_>1000)
val values = data.filter(_<=1000)
Statistics.corr(years,values)
假设检验
男,女
右利手 127,147
左利手 19,10
Statistics.chiTest(Matrices.dense(2,2,Array(127,19,147,10)))
最新文章
- Struts2中通配符的使用
- netcat nc
- 【Python】【解决】UnicodeDecodeError: &#39;ascii&#39; codec can&#39;t decode byte 0xe5 in position 1: ordinal not in range(128)
- python版恶俗古风自动生成器.py
- JavaScript版几种常见排序算法
- Java与C#间json日期格式互转完美解决方案
- 定宽块状元素居中 1记(text-align/margin:0 auto)
- Demo更新列表
- PyCharm远程开发和调试
- [MHA]master_ip_failover 测试可以使用的IP 地址切换脚本
- 编译linux内核以及添加系统调用的全过程
- EDK II之DXE Core框架简介
- py库: django (web框架)
- elasticSearch6源码分析(6)http和transport模块
- ELK系列二:Elasticsearch的架构原理和配置优化
- 20155330 2016-2017-2 《Java程序设计》第五周学习总结
- Redis字符串类型的操作
- .NET开源MSSQL、Redis监控产品Opserver之Redis配置
- 2016424王启元 Exp3免杀原理与实现
- js 代码优化 (写的可以)
热门文章
- jsp_类的封装_集合的应用
- mysql + Fluently NHibernate + WebAPI + Autofac
- 列表和元组的基本操作,for遍历,range
- C++中各大有名的科学计算库
- UVa 12403 - Save Setu
- Fri Jul 28 16:28:52 CST 2017 WARN: Establishing SSL connection without server’s identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection mus
- BZOJ_2821_作诗(Poetize)_分块
- 洛谷P4136 谁能赢呢?——博弈
- 13_传智播客iOS视频教程_OC程序的编译链接
- javascript前端面试题及答案整理