spark uniq 本质上就是单词计数
2024-09-29 22:01:28
粗体部分示例:
# dns_domain_info_list_rdd ==> [(src_ip, domain, domain_ip, timestamp, metadataid), ....]
all_domains_list = dns_domain_info_list_rdd.map(lambda x: (x[1], 1)).reduceByKey(operator.add).map(lambda x: x[0]).collect()
all_domains_set = set(all_domains_list)
domains_with_responsed_ip_list = dns_domain_info_list_rdd.filter(lambda x: x[2]).map(lambda x: (x[1], 1)).reduceByKey(operator.add).map(lambda x: x[0]).collect()
domains_with_responsed_ip_set = set(domains_with_responsed_ip_list)
print "all domains cnt:", len(all_domains_list)
print "all domains sample:", all_domains_list[:3]
print "all domains set cnt:", len(all_domains_set)
print "all domains(with ip) cnt:", len(domains_with_responsed_ip_list)
print "all domains(with ip) sample:", domains_with_responsed_ip_list[:3]
print "all domains(with ip) set cnt:", len(domains_with_responsed_ip_set)
nx_domains = all_domains_set - domains_with_responsed_ip_set # 针对同一个域名的多次请求,有的有应答,有的没有应答,按有应答处理。
最新文章
- 微软职位内部推荐-Software Development Engineer
- 通过java获取html中所有的图片路径
- 仿Material UI框架的动画特效
- how to use javap command
- Top100Summit全球案例研究峰会第一天总结——云计算和大数据
- What algorithm to use to normalize someone's face on image
- p标签中的span标签文字垂直居中对齐
- Map的3种遍历[轉]
- 数据库存储安全之(MD5+盐)加密
- scala maven pom文件
- quick-x 2.2.5 DragonBones 某些fla导出使用后player卡死
- scala实现快速排序
- 分布式版本控制系统Git-----1.Git 初识
- es5预览本地文件、es6练习代码演示案例
- php 获取用户的IP、地址、来源
- Netty浅析
- JVM、redis缓存适用场景
- Apache多站点配置(ubuntu)(原创)
- WebFrom 【母版页】
- Sql Server 数据类型与 C# 数据类型对照
热门文章
- [转] 32位 PL/SQL Develope r如何连接64位的Oracle 图解
- Attempt to invoke virtual method 'void android.app.ActionBar.setTitle的解决方法
- 如何使用ssh远程编辑定时任务crontab?
- Android基础新手教程——3.7 AnsyncTask异步任务
- treeList获取目录下的所有文件
- opencv yuv420与Mat互转
- 云舒网络译:Rancher1.0正式版公布
- C---指针篇
- Android异步载入AsyncTask具体解释
- # kubernetes调度之nodeName与NodeSelector