FusionInsight大数据开发---Flume应用开发
2024-09-06 02:12:53
Flume应用开发
要求:
- 了解Flume应用开发适用场景
- 掌握Flume应用开发
Flume应用场景
Flume的核心是把数据从数据源收集过来,在送到目的地。为了保证输送一定成功,发送到目的地之前,会先缓存数据,待数据真正的到达目的地后,删除自己缓存的数据。
Flume采用流式方法采集和传输数据,程序配置好后,不需要外部条件触发下,一直监控数据源,源源不断地采集、传送数据到目的地。
主要应用于一下几种场景:
- 将分布式节点上大量数据实时采集、汇总和转移
- 将集群内、外地本地文件、实时数据流采集到FusionInsight集群内的HDFS、HBase,Kafka,Solr中。
- 将Avro、System,http,Thrift,JMS、Log4j协议发送过来地数据采集到FusionInsight集群内
Flume基本概念
- Source:数据源,即是产生日志信息地源头,Flume会将原始数据建模抽象成自己处理地数据对象:event
- Channel:通道,主要作用是临时缓存Source发过来地数据
- Sink:主要是从channel中取出数据并将数据放到不同地目的地
- event:一个数据单元,带有一个可选地消息头,Flume传输地数据地基本单位是event,如果是文本文件,通常是一行记录。event从Source,流向Channel,再到Sink,Sink将数据写入目的地
方案设计:
1)首先确定数据源:集群外
2)数据最终流向:KafKa(集群内)
最新文章
- Flex数据绑定陷阱(一)
- HTTP协议学习---(七)代理
- 数据库查询Database中的表
- nginx(五)nginx与php的安装配置
- 企业级搜索引擎Solr 第三章 索引数据(Indexing Data)[3]
- BigDecimal除法
- iOS 高级开发 runtime(三)
- Delphi调用安装驱动sys的单元
- CodeForces 706A Beru-taxi
- JAVA函数的参数传递
- Spring Boot实战笔记(四)-- Spring常用配置(事件Application Event)
- js方法实现--上传文件功能
- PHP算法练习1:两数之和
- BZOJ4805: 欧拉函数求和(杜教筛)
- 尚学堂java 参考答案 第九章
- Jmeter使用流程及简单分析监控
- centos下安装python3.6.2
- 【Unity】3.0 第3章 创建和导入3D模型
- 内部排序比较(Java版)
- jmeter结果分析(图形报表和聚合报告)
热门文章
- 金蝶BOS元模型分析
- 《Android开发艺术探索》读书笔记之Activity的生命周期
- CentOS配置jar应用程序开机启动的方法
- 6.redis 的持久化有哪几种方式?不同的持久化机制都有什么优缺点?持久化机制具体底层是如何实现的?
- python测试开发django-72.删除表后如何重新生成表
- linux cpu信息查看
- 01-linux-基本语法-sh文件
- NDCG、AUC介绍
- vue动态添加路由,跳转页面时,页面报错路由重复:vue-router.esm.js?8c4f:16 [vue-router] Duplicate named routes definition: { name: ";Login";, path: ";/login"; }
- Spring Boot 知识笔记(配置文件)