/*
* 输入:采样率,待采样的RDD
* 输出:每个分区的样本大小(记录数)
* 由采样率确定,每个分区的样本大小
*/
def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={
//RDD总记录数
val numRdd=rddNum.count()
//RDD的分区数
val numPartition=rddNum.partitions.size
//样本总记录数
val numSample=rddNum.count()*sampleRate
//每个分区准备抽样的样本记录数
val numSamplePerPartition=(numSample/numPartition).toInt
(numSamplePerPartition)
}

最新文章

  1. JS 中的事件绑定、事件监听、事件委托
  2. 用js实现在加载完成一个页面后自动执行一个方法
  3. Mistral 工作流组件之一 概述
  4. 正则化—Java中Split函数的用法技巧_(转载修改)
  5. 类和ID选择器的区别
  6. webuploader文件上传问题总结
  7. 【转】Win7、Ubuntu双系统正确卸载Ubuntu系统--不错
  8. git寻根——^和~的区别(转)
  9. RabbitMQ安装记录(CentOS)
  10. ICPC中国南昌国家邀请赛和国际丝绸之路规划大赛预选赛 I J
  11. 实战Google深度学习框架-C3-TensorFlow入门
  12. linux select 与 阻塞( blocking ) 及非阻塞 (non blocking)实现io多路复用的示例【转】
  13. 设置SQLServer数据库内存
  14. VS2017中VC++项目添加StringTable资源
  15. charles 注册码
  16. What is a UINavigationTransitionView
  17. php获取指定日期的前一天,前一月,前一年日期
  18. Excel之tab键
  19. SNMP学习笔记之iReasoning MIB Browser
  20. shiro中基于注解实现的权限认证过程

热门文章

  1. 使用memcpy 复制unsigned int 型的数据
  2. plsql 免oracle客户端安装
  3. 【原】RHEL6.0企业版安装
  4. 如何使用最简单的方法将一个已经存在的工程中使用 cocaPodfile
  5. 1.6-1.8 HBase表的物理模型
  6. [python]MS17-010自动化扫描脚本
  7. 【废弃】JavaScript 删除部分
  8. Puppet2d及教程
  9. Proteomes of paired human cerebrospinal fluid and plasma: Relation to blood-brain barrier permeability in older adults (文献分享一组-潘火珍)
  10. Java EE规范下载