1.连接mysql

--driver-class-path mysql-connector-java-5.1.21.jar



在数据库中,SET GLOBAL binlog_format=mixed;

2.Spark中 使用Hive的udf

同样使用—jars 才行

3.Spark jupyter使用

https://www.jb51.net/article/163641.htm

https://my.oschina.net/albert2011/blog/754174

使用jupyter-notebook --ip hostname -i来启动

4.Spark使用hive的orc解析格式

spark.sql.hive.convertMetastoreOrc=true

使用spark写入hive表中的数据,可能会出现空指针问题或者数据越界问题,问题原因是spark的元数据解析问题,而不是hive的元数据解析问题

5.row_number排序算子的使用

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number
import org.apache.spark.sql.functions._

1.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(col("f_modify_time").desc)))

2.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-col("f_modify_time"))))

3.val df = spark.sql(sql)

df.withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-df("f_modify_time"))))

4.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-'f_modify_time)))

注意:-的方式,经过测试,不稳定,有时可以,有时不可以

6.broadcast广播表

sc.broadcast是广播数据,一般用于rdd广播,而下面的方式用于广播表

import org.apache.spark.sql.functions.broadcast

broadcast(tableData).createOrReplaceTempView

吴邪,小三爷,混迹于后台,大数据,人工智能领域的小菜鸟。

更多请关注

最新文章

  1. js 获取浏览器高度和宽度值(多浏览器)(转)
  2. javascript中的一些核心知识点以及需要注意的地方
  3. [转]Linux 的多线程编程的高效开发经验
  4. Android项目开发实战-2048游戏
  5. bootstrap之消息提示
  6. ubuntu SVN环境配置(转)
  7. Apache、Tomcat、JBoss、Weblogic四个常用的JavaEE服务器
  8. linux下查看硬件配置的相关命令
  9. 关于applicationx/www-form-urlencoded和multipart/form-data的描述
  10. JavaWeb:基于MVC设计模式的一个小案例(一)
  11. ThreadLocal 和 InheritableThreadLocal (引用)
  12. 【QT相关】QT+opencv环境配置
  13. 记vue API 知识点
  14. Cxf 自动生成客户端服务端代码
  15. SpriteBuilder中音频波长超过Timeline结尾的情况
  16. Git认证方式https和ssh的原理及比较
  17. (六)循环和控制语句及列表迭代(enumerate)
  18. webpack学习笔记——publicPath路径问题
  19. Moqui 代码解释
  20. matlab 三维激光雷达点云的地面与障碍物检测

热门文章

  1. Codeforces Round #540 (Div. 3) D2. Coffee and Coursework (Hard Version) (二分,贪心)
  2. POJ2429 GCD & LCM Inverse pollard_rho大整数分解
  3. 向Pycharm中导入第三方包 && 更改Pycharm上镜像源
  4. cs寄存器
  5. 支撑性服务 & 自动化
  6. Jpress小程序
  7. Cobbler服务部署
  8. Ansible 自动化部署
  9. MQTT 协议 部分细节
  10. 十三香 & 香料