本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程:

Flink大数据项目实战:http://t.cn/EJtKhaz

核心组件栈

Flink发展越来越成熟,已经拥有了自己的丰富的核心组件栈,如下图所示。

从上图可以看出Flink的底层是Deploy,Flink可以Local模式运行,启动单个 JVM。Flink也可以Standalone 集群模式运行,同时也支持Flink ON YARN,Flink应用直接提交到YARN上面运行。另外Flink还可以运行在GCE(谷歌云服务)和EC2(亚马逊云服务)。

Deploy的上层是Flink的核心(Core)部分Runtime。在Runtime之上提供了两套核心的API,DataStream API(流处理)和DataSet API(批处理)。在核心API之上又扩展了一些高阶的库和API,比如CEP流处理,Table API和SQL,Flink ML机器学习库,Gelly图计算。SQL既可以跑在DataStream API,又可以跑在DataSet API。

生态

从上图可以看出Flink拥有更大更丰富的生态圈:

中间最底层Deploy模式包含 Local本地模式、Cluster(包含Standalone和YARN)集群模式以及Cloud云服务模式,然后它的上层是Flink runtime运行时,然后它的上层是Flink DataSet批处理和DataStream流处理,然后它的上层又扩展了Hadoop MR、Table、Gelly(图计算)、ML(机器学习)、Zoppelin(可视化工具)等等。

左边为输入Connectors。流处理方式包含Kafka(消息队列),AWS kinesis(实时数据流服务),RabbitMQ(消息队列),NIFI(数据管道),Twitter(API)。批处理方式包含HDFS(分布式文件系统),HBase(分布式列式数据库),Amazon S3(文件系统),MapR FS(文件系统),ALLuxio(基于内存分布式文件系统)。

右边为输出Connectors。流处理方式包含Kafka(消息队列),AWS kinesis(实时数据流服务),RabbitMQ(消息队列),NIFI(数据管道),Cassandra(NOSQL数据库),ElasticSearch(全文检索),HDFS rolling file(滚动文件)。批处理包含HBase(分布式列式数据库),HDFS(分布式文件系统)。

未来

Flink会进行批计算的突破、流处理和批处理无缝切换、界限越来越模糊、甚至混合。

Flink会开发更多语言支持

Flink会逐步完善Machine Learning 算法库,同时 Flink 也会向更成熟的机器学习、深度学习去集成(比如Tensorflow On Flink)。

最新文章

  1. uboot环境配置
  2. python小知识积累
  3. C#_技巧:真伪随机数
  4. 黄聪:Wordpress二级域名共享用户cookie出现错误解决方案及WP的Cookie机制
  5. 关于UIWebView的总结
  6. 关于科台斯k97gprs调试记录(1)
  7. TortoiseGit和Git操作git@osc简要说明
  8. 关于imx6核心板qt系统U盘挂载
  9. WEBAPP组件化时代, Web Components
  10. Hbase查看
  11. Javascript 页面刷新
  12. 长连接 Socket.IO
  13. MySql 中文乱码解决办法
  14. virtualbox主机与虚拟机之间互相通信教程
  15. 自动测试工具(Jmeter,qtp等)
  16. Debian 9 VIM 使用鼠标右键复制
  17. openstack之Neutron网络虚拟化
  18. Weblogic读不到Word文件
  19. 什么是AOP面向切面编程
  20. C++ 执行Windows cmd命令

热门文章

  1. 【知识碎片】Asp.Net 篇
  2. 【279】◀▶ Python 运算符说明
  3. 各大IT/IC公司offer比较 
  4. Oracle 中 over() 函数
  5. PHP自动加载配置ArrayAccess类
  6. 深入剖析SolrCloud(四)
  7. SSH隧道技术简介
  8. Linux问题:开启网关
  9. Win10 pip安装pycocotools报错解决方法(cl: 命令行 error D8021 :无效的数值参数“/Wno-cpp”)
  10. 怎样使用Mock Server