【2020】DBus,一个更能满足企业需求的大数据采集平台
功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具
注:由于文章篇幅有限,完整文档可扫免费获取
深知其他组件的局限性,才能彰显DBus的优越感
当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。
一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难。除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性。比如:
(1)各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)
(2)由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性)
(3)基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)
这些方案都不能算完美,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。在这个背景下DBus就诞生了。
DBus到底是什么?给我一个完美的解释
DBus(数据总线)项目为了统一数据采集需求而生, 专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,采用高可用的流式计算框架,对公司各个IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。支持多租户管理,提供租户级资源、数据隔离机制。
看DBus官网,了解更多更新一手资料
https://github.com/BriData/DBus
看DBus架构,聚焦DBus两大核心功能
DBUS主要分为两个部分:
(1)贴源数据采集
(2)多租户数据分发
两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发
继续深入贴源数据采集功能模块
DBUS源端数据采集大体来说分为两部分:
读取RDBMS增量日志的方式来 实时获取增量数据日志,并支持全量拉取;基于logtash,flume,filebeat等抓取工具来实时获得数据,以可视化的方式对数据进行结构化输出;
以下为具体实现原理:
主要模块如下:
(1)日志抓取模块:从RDBMS的备库中读取增量日志,并实时同步到kafka中;
(2)增量转换模块:将增量数据实时转换为UMS数据,处理schema变更,脱敏等;
(3)全量抽取程序:将全量数据从RDBMS备库拉取并转换为UMS数据;
(4)日志算子处理模块:将来自不同抓取端的日志数据按照算子规则进行结构化处理;
(5)心跳监控模块:对于RDMS类源,定时向源端发送心跳数据,并在末端进行监控,发送预警通知;对于日志类,直接在末端监控预警。
(6)web管理模块:管理所有相关模块。
继续深入多租户数据分发功能模块
对于不同租户对不同源端数据有不同访问权限、脱敏需求的情形,需要引入Router分发模块,将源端貼源数据,根据配置好的权限、用户有权获取的源端表、不同脱敏规则等,分发到分配给租户的Topic。这一级的引入,在DBUS管理系统中,涉及到用户管理、Sink管理、资源分配、脱敏配置等。不同项目消费分配给他的topic。
未完待续。由于文章篇幅有限,完整文档可扫码免费获取。
最新文章
- Oracle行内链接不会引起USER_TABLES中CHAIN_CNT值变化
- memcache 缓存失效问题(转)
- Linux系统下安装rz/sz命令及使用说明
- 安装phpmyadmin
- NullableKey:解决Dictionary中键不能为null的问题 zt
- Spring MVC中DispatcherServlet工作原理探究
- 3 D. Least Cost Bracket Sequence
- Highcharts下载与使用_数据报表图
- Jam's math problem(思维)
- HDU 5839 Special Tetrahedron
- api-gateway实践(04)新服务网关 - 新手入门
- Mybatis逆向工程 —— ResultMaps collection already contains value for ***
- ORA-27300 ORA-27301 ORA-27302 sskgpcreates
- Linux下计算进程的CPU占用和内存占用的编程方法[转]
- MyBatis基础入门《十六》缓存
- NET设计模式 第三部分 结构型模式(7):适配器模式(Adapter Pattern)
- 线程同步方式之互斥量Mutex
- 两种屏幕HUD区域限制的做法(矩形,弧形)
- 20155331 《信息安全技术概论》实验二 Windows口令破解
- 简单的js定时器
热门文章
- spark和strom优劣分析
- 手写vue中v-bind:style效果的自定义指令
- 基于Java+HttpClient+TestNG的接口自动化测试框架(四)-------参数存取处理
- 设计模式(Java语言)- 工厂方法模式
- Centos与Ubuntu
- 长连接 Websocket
- Boyer-Moore 算法 Leetcode169
- linux实用指令 | 程序员线上排查必知必会linux指令(持续更新中)
- 重磅!K8S 1.18版本将内置支持SideCar容器。
- Win2008 远程时提示";要登录到此远程计算机,您必须被授予允许通过终端登录登录的权限";的解决方法