Spark-水库抽样-根据抽样率确定每个分区的样本大小
2024-09-05 07:31:17
/*
* 输入:采样率,待采样的RDD
* 输出:每个分区的样本大小(记录数)
* 由采样率确定,每个分区的样本大小
*/
def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={
//RDD总记录数
val numRdd=rddNum.count()
//RDD的分区数
val numPartition=rddNum.partitions.size
//样本总记录数
val numSample=rddNum.count()*sampleRate
//每个分区准备抽样的样本记录数
val numSamplePerPartition=(numSample/numPartition).toInt
(numSamplePerPartition)
}
最新文章
- JS 中的事件绑定、事件监听、事件委托
- 用js实现在加载完成一个页面后自动执行一个方法
- Mistral 工作流组件之一 概述
- 正则化—Java中Split函数的用法技巧_(转载修改)
- 类和ID选择器的区别
- webuploader文件上传问题总结
- 【转】Win7、Ubuntu双系统正确卸载Ubuntu系统--不错
- git寻根——^和~的区别(转)
- RabbitMQ安装记录(CentOS)
- ICPC中国南昌国家邀请赛和国际丝绸之路规划大赛预选赛 I J
- 实战Google深度学习框架-C3-TensorFlow入门
- linux select 与 阻塞( blocking ) 及非阻塞 (non blocking)实现io多路复用的示例【转】
- 设置SQLServer数据库内存
- VS2017中VC++项目添加StringTable资源
- charles 注册码
- What is a UINavigationTransitionView
- php获取指定日期的前一天,前一月,前一年日期
- Excel之tab键
- SNMP学习笔记之iReasoning MIB Browser
- shiro中基于注解实现的权限认证过程
热门文章
- 使用memcpy 复制unsigned int 型的数据
- plsql 免oracle客户端安装
- 【原】RHEL6.0企业版安装
- 如何使用最简单的方法将一个已经存在的工程中使用 cocaPodfile
- 1.6-1.8 HBase表的物理模型
- [python]MS17-010自动化扫描脚本
- 【废弃】JavaScript 删除部分
- Puppet2d及教程
- Proteomes of paired human cerebrospinal fluid and plasma: Relation to blood-brain barrier permeability in older adults (文献分享一组-潘火珍)
- Java EE规范下载