Flink生态与未来
本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程:
Flink大数据项目实战:http://t.cn/EJtKhaz
核心组件栈
Flink发展越来越成熟,已经拥有了自己的丰富的核心组件栈,如下图所示。
从上图可以看出Flink的底层是Deploy,Flink可以Local模式运行,启动单个 JVM。Flink也可以Standalone 集群模式运行,同时也支持Flink ON YARN,Flink应用直接提交到YARN上面运行。另外Flink还可以运行在GCE(谷歌云服务)和EC2(亚马逊云服务)。
Deploy的上层是Flink的核心(Core)部分Runtime。在Runtime之上提供了两套核心的API,DataStream API(流处理)和DataSet API(批处理)。在核心API之上又扩展了一些高阶的库和API,比如CEP流处理,Table API和SQL,Flink ML机器学习库,Gelly图计算。SQL既可以跑在DataStream API,又可以跑在DataSet API。
生态
从上图可以看出Flink拥有更大更丰富的生态圈:
中间最底层Deploy模式包含 Local本地模式、Cluster(包含Standalone和YARN)集群模式以及Cloud云服务模式,然后它的上层是Flink runtime运行时,然后它的上层是Flink DataSet批处理和DataStream流处理,然后它的上层又扩展了Hadoop MR、Table、Gelly(图计算)、ML(机器学习)、Zoppelin(可视化工具)等等。
左边为输入Connectors。流处理方式包含Kafka(消息队列),AWS kinesis(实时数据流服务),RabbitMQ(消息队列),NIFI(数据管道),Twitter(API)。批处理方式包含HDFS(分布式文件系统),HBase(分布式列式数据库),Amazon S3(文件系统),MapR FS(文件系统),ALLuxio(基于内存分布式文件系统)。
右边为输出Connectors。流处理方式包含Kafka(消息队列),AWS kinesis(实时数据流服务),RabbitMQ(消息队列),NIFI(数据管道),Cassandra(NOSQL数据库),ElasticSearch(全文检索),HDFS rolling file(滚动文件)。批处理包含HBase(分布式列式数据库),HDFS(分布式文件系统)。
未来
Flink会进行批计算的突破、流处理和批处理无缝切换、界限越来越模糊、甚至混合。
Flink会开发更多语言支持
Flink会逐步完善Machine Learning 算法库,同时 Flink 也会向更成熟的机器学习、深度学习去集成(比如Tensorflow On Flink)。
最新文章
- uboot环境配置
- python小知识积累
- C#_技巧:真伪随机数
- 黄聪:Wordpress二级域名共享用户cookie出现错误解决方案及WP的Cookie机制
- 关于UIWebView的总结
- 关于科台斯k97gprs调试记录(1)
- TortoiseGit和Git操作git@osc简要说明
- 关于imx6核心板qt系统U盘挂载
- WEBAPP组件化时代, Web Components
- Hbase查看
- Javascript 页面刷新
- 长连接 Socket.IO
- MySql 中文乱码解决办法
- virtualbox主机与虚拟机之间互相通信教程
- 自动测试工具(Jmeter,qtp等)
- Debian 9 VIM 使用鼠标右键复制
- openstack之Neutron网络虚拟化
- Weblogic读不到Word文件
- 什么是AOP面向切面编程
- C++ 执行Windows cmd命令
热门文章
- 【知识碎片】Asp.Net 篇
- 【279】◀▶ Python 运算符说明
- 各大IT/IC公司offer比较&;nbsp;
- Oracle 中 over() 函数
- PHP自动加载配置ArrayAccess类
- 深入剖析SolrCloud(四)
- SSH隧道技术简介
- Linux问题:开启网关
- Win10 pip安装pycocotools报错解决方法(cl: 命令行 error D8021 :无效的数值参数“/Wno-cpp”)
- 怎样使用Mock Server