什么事spark

Spark是一种快速、通用、可扩展的大数据计算引擎.项目是用Scala进行编写,基于内存计算的
包括交互式查询和流处理

spark内置项目

Spark SQL:是 Spark 用来操作结构化数据的程序包。
Spark Streaming:是 Spark 提供的对实时数据进行流式计算的组件。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。
GraphX:提供一个分布式图计算框架,能高效进行图计算。
集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。

spark常用术语

 Application           Spark的应用程序,包含一个Driver program和若干Executor
 SparkContext    Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor
 Driver Program 运行Application的main()函数并且创建SparkContext
 Executor 是为Application运行在Worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。
每个Application都会申请各自的Executor来处理任务
 ClusterManager 在集群上管理各种资源的外部服务(例如:Standalone、Mesos、Yarn)
 Worker Node 集群中任何可以运行Application代码的节点,运行一个或多个Executor进程,每个节点可以起一个或多个Executor
 Task 运行在Executor上的工作单元,每个Executor由若干core组成,每个Executor的每个core一次只能执行一个Task,每个Task执行的结果就是生成了目标RDD的一个partiton
 Job SparkContext提交的具体Action操作,常和Action对应
 Stage 每个Job会被拆分很多组task,每组任务被称为Stage,也称TaskSet
 RDD 是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类
 DAGScheduler 根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
 TaskScheduler 将Taskset提交给Worker node集群运行并返回结果
 Transformations 是Spark API的一种类型,Transformation返回值还是一个RDD, 所有的Transformation采用的都是懒策略,
如果只是将Transformation提交是不会执行计算的
 Action 是Spark API的一种类型,Action返回值不是一个RDD,而是一个scala集合;计算只有在Action被提交的时候计算才 被触发。

最新文章

  1. ps工具箱总结
  2. Linux下Gcc生成和使用静态库和动态库详解(转)
  3. C语言笔记
  4. hdu5412——CRB and Queries
  5. mysql中一些简单但是新手容易犯的错误
  6. JSP显示不完全问题
  7. freeCodeCamp:Repeat a string repeat a string
  8. eclipse启动tomcat时设置端口
  9. 使用ffmpeg将BMP图片编码为x264视频文件,将H264视频保存为BMP图片,yuv视频文件保存为图片的代码
  10. C#反射机制详解(转)
  11. 用react分页显示数据
  12. 201521123077 《Java程序设计》第2周学习总结
  13. 201521123117 《Java程序设计》第9周学习总结
  14. java+jenkins+testng+selenium+ant
  15. Confluence 6 CSS 编辑快速入门
  16. FZU 2150 fire game (bfs)
  17. python-类的约束,MD5,异常处理,日志
  18. The ADB instructions
  19. [c#基础]使用抽象工厂实现三层 和反射
  20. doctype和Quirks模式

热门文章

  1. Cyclical Quest CodeForces - 235C (后缀自动机)
  2. 03_vlan & access & trunk 口(数通华为)
  3. pandas模块中序列Series和列表List的区别
  4. HHHOJ #151. 「NOI模拟 #2」Nagisa
  5. JAVA基础--MySQL(二)
  6. CentOS 7 上 安装 jira
  7. fiddler自动生成jmeter测试脚本
  8. Android开发:文本控件详解——RadioButton和CheckBox(一)基本属性
  9. 使用ssh-keygen生成私钥和公钥
  10. Oracle的“ORA-00937: 不是单组分组函数” 如何解决?