如何基于ESB实现实时数据同步DAP-下

摘要：DAP数据分析平台是面向企业数据治理和数据分析的大数据应用平台，通过企业数仓建设和数据可视化分析，实现企业数据的整合归集、标准统一，构建数据资产，支撑企业业务管理和决策。在强化数据整合、管控的同时，实现数据的集成联动，通过流动的数据服务于业务，产生业务价值，实

DAP数据分析平台是面向企业数据治理和数据分析的大数据应用平台，通过企业数仓建设和数据可视化分析，实现企业数据的整合归集、标准统一，构建数据资产，支撑企业业务管理和决策。在强化数据整合、管控的同时，实现数据的集成联动，通过流动的数据服务于业务，产生业务价值，实现数据价值的最大化。

在数据集成整合的过程中，DAP平台需要从各个内外部系统数据源中采集各类数据，包括结构化数据、半结构化数据和非结构化数据等，同时为了满足不同业务和使用的需要，在采集方式上需要实现实时采集和离线采集相结合的方式。在上篇中主要介绍了Kafka部署过程，本篇将主要介绍Flink部署及整体测试过程。

本次主要介绍Flink虚拟机部署的方式，如果整体环境采用K8S容器化部署，建议直接部署Flink容器，可以通过UMC实现更加方便的部署和管理。

1.部署过程

1.下载安装包，上传；

2.解压：tar -zxvf flink-1.14.6-bin-scala_2.11.tgz；

3.进入flink目录，启动：./bin/start-cluster.sh；

4.端口检查；

5.访问测试。

2.测试验证

1.读写测试：

2.执行结果：

3.控制台显示：

3.ESB测试

1.修改全局变量：isLocal改为“Y”，采用本地模式（非k8s容器部署）；

2.修改访问地址：flinkRestURLPrefix改为Flink访问地址（http://ip:port），端口默认为8081（如果修改了配置文件，以修改后为准）；

3.通过Flink的Web UI上传jar文件；

4.通过接口获取JarID：get方法调用http://:/jars，返回jar列表，获取JarID；

5.修改全局变量；

6.配置任务；

7.提交测试。

整体测试

根据实时集成的测试流程，基于Flink和Kafka进行整体测试，模拟源头系统的数据变化，通过Flink采集源头的数据变更，并将变更写入Kafka，再通过ESB消费Kafka数据写入DAP的ODS表中。

1.测试方案

1.配置数据源，包括biz、ods和edw，其中biz和ods用mysql，edw用doris；

2.在DAP的biz库中建立业务来源表；

3.在DAP中通过biz配置ODS表，同步方式选择“外部同步”；

4.在SMC中Flink实施采集，通过以biz中表为源头，通过cdc的方式将数据采集到Kafka中；

5.通过ESB设计器手动创建Queue流程，读取Kafka中的数据，并进行数据格式转换，再写入dap的ODS表中；

6.在事实配置中创建事实表，目标数仓为Doris数仓，通过ODS表字段构建数仓基础事实表；

7.在ESB设计器中通过流程向导创建“ODS转换到EDW”的Http流程，并进行部署；

8.调整Kafka到ODS的Queue流程，在写入ODS表后添加HttpInvoker节点，调用“ODS转换到EDW”的加工流程，实现ODS到EDW的加工；

9.在biz表中添加、修改数据，验证ODS以及Doris数仓中的数据变化；

10.加工后检查数仓加工日志；

11.检查ESB后台日志的运行情况。

2.配置过程

1.配置DAP数据源；

2.创建biz表；

3.创建ODS表；

4.配置Flink采集；

5.创建消费的Queue流程；

6.配置事实表；

7.创建加工流程；

8.通过流程调用加工流程；

9.添加数据；

10.修改数据。

3.注意事项

1.Flink日志检查；

1)客户端日志：flink/log/flink-appuser-client-主机名.log；

2)服务端日志：flink-appuser-standalonesession-2-主机名.log；

3)Sql-client（bin/sql-client.sh）日志：flink-appuser-sql-client-主机名.log；

4)Job日志：启动job时指定的日志文件，该文件会输出job中打印的输出信息。

2.Kafka日志：

1)Broker日志：kafka/logs/server.log。

3.ODS同步方式采用“外部同步”时，需要手动创建流程，并且创建Queue流程进行数据消费。

基于ESB数据总线进行数据采集是DAP平台实现数据采集、加工、转换、汇总的基础，而根据实际业务、需求以及数据类型的不同，采集方式也会有所区别，本次数据针对结构化数据的实时采集进行介绍，通过Flink与Kafka结合的方式实现的采集过程。

1.问题总结

由于Flink、Kafka组件都是基于虚拟机部署的，并且都是最新版本，在实际应用时需要结合使用，同时采集过程涉及到了CDC的实时数据读取，所以在整体测试过程中需要根据运行要求补充相关的依赖jar，从而保证运行的准确性。

由于Flink是直接通过ESB的配置进行调用的，所有在ESB的Flink任务运行前，需要将ESB专用FlinkJob文件放到Flink的环境中并进行启用，从而保证ESB的任务可以顺利执行。

2.产品功能

在产品层面，ESB和DAP相互结合已经完成了对Flink实时采集的支持，通过ESB配置Flink任务采集来源数据，再基于流程进行数据处理，写入DAP的数仓中，从而实现数据整体的采集过程。除了本次介绍的Fink结合Kafka的采集模式，在ESB中还预置了数据库到数据库、文件到数据库等不同的集成方式，可以满足不同业务场景的需求。

3.说在最后

DAP数据分析平台作为数据治理和数据分析平台，提供完整的数据采集、加工、转换、汇总功能，从而实现数仓的构建。同时DAP提供了数据可视化、数据服务、数据预测、数据资产等功能，可以深度对数仓数据进行应用，从而满足各类业务场景的数据使用需求。

在实际使用过程中，DAP数据分析平台和ESB数据总线平台结合使用，通过ESB快速生成采集流程，实现数据采集和数仓构建。为了保证数仓采集数据的准确性，以及基础数据的一致性，会在基础方案的基础上添加MDM平台构建一体化数据中台，从而实现集主数据治理、数仓建设、数据分析为一体的数据中台方案，共同完成数据治理的全过程，从而为企业的数据体系建设提供全面的支持。

本文由@数通畅联原创，欢迎转发，仅供学习交流使用，引用请注明出处！谢谢~

来源：数通畅联

标签： dap esb ods

本文地址：https://news.43u.com.cn/a/467050.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!