spark dataset join 使用方法java
2024-08-25 08:02:27
dataset<Row> df1,df2,df3 //该方法可以执行成功
df3= df1.join(df2,"post_id").selectExpr("hostname,request_date,post_id,title,author,name as category".split(",")); //innner join acc = df1.withColumnRenamed("post_id", "post_id_acc");
//该方法join同名列的时候,要重命名,否则会报错:重名列(通过drop删除无效,不知道是什么原因)
post_categories = acc.join(post_one_cat,acc.col("post_id_acc").equalTo(post_one_cat.col("post_id")),"left_outer").join(categories, post_one_cat.col("cate_id").equalTo(categories.col("id")),"left_outer").selectExpr("hostname,request_date,post_id_acc as post_id,title,author,name as category".split(","));
9 //post_categories = acc.join(post_one_cat,acc.col("post_id_acc").equalTo(post_one_cat.col("post_id")),"left_outer").join(categories, post_one_cat.col("cate_id").equalTo(categories.col("id")),"left_outer").withColumnRenamed("name", "category")
.withColumnRenamed("post_id_cat", "post_id");
//该方法可以执行成功 df3= df1.join(df2,JavaConverters.asScalaIteratorConverter(Arrays.asList("post_id").iterator()).asScala().toSeq(),"left_outer").join(cat, JavaConverters.asScalaIteratorConverter(Arrays.asList("cate_id").iterator()).asScala().toSeq(),"left_outer").selectExpr("hostname,request_date,post_id,title,author,name as category".split(","));
最新文章
- Asp.net有关GridView的使用
- 从RAM新建QIcon对象 / Create a QIcon from binary data
- iOS 3DES加密解密(一行代码搞定)
- Jenkins实现生产环境部署文件的回滚操作(Windows)
- OneSQL的docker之旅
- Python学习笔记第七天(列表解析)
- string和stringstream用法总结
- STL 简介,标准模板库
- hdu 4421 2-SAT问题
- tcl/tk实例详解——返回一个文件夹下所有文件的绝对路径
- Android基础之响应Menu键弹出菜单Demo
- CSS 效果汇总
- WebViewJavascriptBridge详细使用
- SELinux一键开启与禁用脚本
- Odoo免费开源ERP销售收款的财务对账解决方案
- Eclipse 中 SVN 插件的安装与使用
- EXSI中Linux安装tools
- DeepID人脸识别算法之三代
- NodeJS-002-Expres启动
- Windows服务器管理与优化