释放数据生产力——数据编织的价值实现与评估

摘要:在企业数字化转型的深入探索中普遍存在两类显著的数字化需求:一类是数字化管理,另一类是数智化运营。这两种需求具有截然不同的特性。数字化管理侧重于为管理层及有限受众提供基于固定模板的决策支持,其需求稳定且可预测,类似于精准射击固定靶。而数智化运营则要求高度灵活,能

在企业数字化转型的深入探索中普遍存在两类显著的数字化需求:一类是数字化管理,另一类是数智化运营。这两种需求具有截然不同的特性。数字化管理侧重于为管理层及有限受众提供基于固定模板的决策支持,其需求稳定且可预测,类似于精准射击固定靶。而数智化运营则要求高度灵活,能够快速捕捉并响应业务运营中的动态变化,分析目标与维度在分析实践中逐步明确,犹如追踪移动靶的射击,分析需求在业务运营过程中持续涌现。

回顾数据平台和数据工程体系的演进过程,在早期信息化阶段,传统数据仓库能够很好地满足由管理驱动的“看数”需求。但随着互联网和移动互联网的快速发展,数据分析需求、数据分析人群、数据源和数据量爆发式增长,推动企业数据工程体系进入到分布式湖仓和数据中台阶段。

同传统数仓相比,以分布式湖仓架构为基础的大数据基础设施具有弹性可伸缩、兼顾结构化和非结构化数据的特点,可以支撑大规模数据处理。但国内以“数据中台”为代表的分布式数据平台就是一种完美的数据技术体系么?当我们结合真实的企业业务场景,对数据体系进行严肃的技术选型时,应该考虑哪些评估要素呢?

Aloudata 结合团队丰富的数据平台建设与管理经验,建议通过以下要素进行选型评估:

技术的业务匹配度:传统数据中台实现了大数据量下打“固定靶”的需求,但仍因其依然依赖数据的物理集中和搬运,难以迅速适应业务需求的动态变化。因此,企业需寻求一种能够紧密贴合业务节奏,实现数据即时可用,促进业务灵活创新与决策的技术方案。技术的组织就绪度:首先数据中台技术栈复杂,涉及实时计算、流计算等技术和工具;其次物理建模要综合评估业务需求、响应时效和成本。可见数据中台对企业数据团队的专业性和规模都有着较高要求,人力成本高昂。因此,企业需评估技术方案的易用性,寻找那些能够降低技术门槛、简化数据处理流程、专业经验不足的小规模团队也能高效管理和利用数据的解决方案。技术的 ROI:传统数据中台方案往往需要先期投入大量资源构建基础设施,回报周期较长,且需要长期持续投入,而投资的收益又并不够清晰可衡量。因此,企业应寻求一种轻量级、高效益的技术方案,无需大规模的数据集中存储,能够快速部署并产生实际业务价值。

结合上述三个维度的分析,我们不禁要问:是否存在一种更为敏捷、灵活的数据管理架构,能够有效应对企业从数据平台初建到深化应用的全过程挑战,既能实现从 0 到 1 的建设,又能从 1 到 10 激活数据资产?

数据编织(Data Fabric)正是解决上述各类问题的一种先进的技术管理理念。

近年来,数据编织一直被 Gartner 列入新兴技术趋势报告中,通过数据编织,可以有效地解决企业用数的效率、成本、组织、合规等各个方面的问题。但在国内,真正将这一架构理念付诸实践的企业仍属罕见。值得庆幸的是,通过 Aloudata 及其领先行业的探索与实践,数据编织已在银行、制造、医疗等多个关键领域成功落地,证明了其在实际应用中的可行性与价值。

数据编织的价值实现机制

我们可以通过一个简单的场景示例来解构数据编织的技术实现机制。

假设业务的需求是生成两张报表:一是按会员等级统计每日订单金额,二是按产品类别统计每日订单金额。在传统数据仓库架构中,需要先将散落在各数据源中的数据物理同步至数据仓库,进而构建会员表、产品表及订单明细表,随后是基于这三张事实表和维表构建订单宽表,并在此基础上进一步加工出所需指标的两张汇总表,以满足报表的查询需求。此流程涉及六个物理表的创建,以及配套的数据同步、加工、调度、运维等多项任务。

对于相同的场景与需求, Aloudata AIR 逻辑数据编织平台的独特之处在于引入了逻辑表的概念。

无需物理数据的同步操作,仅需连接数据源,逻辑构建会员表、产品表及订单明细表。在此基础上,构建逻辑订单宽表,该表同样不涉及物理数据的存储与同步。针对报表需求中按照会员等级与订单分类统计订单金额,构建关系投影(RP)以实现查询加速。两张报表仍然直接查询逻辑订单大宽表,而查询请求会自动路由至 RP(加速后的数据上),从而保障报表的查询性能。在这种模式下,只创建了一张加速物理表。

这一对比清晰地展示了传统数据研发流程与 Aloudata AIR 逻辑数据编织平台的研发流程的根本差异。后者通过逻辑表与关系投影的灵活应用,显著简化了处理流程,提升了数据处理的敏捷性与效率,并降低了存算开销与任务配置与运维相关的人力投入。

Aloudata AIR 逻辑数据编织平台关键特性:零搬运、免运维、自治理

首先,它实现了数据的零搬运。在数据编织环境中,无需进行数据的物理集成,从而避免了数据在不同系统之间的冗余存储。通过数据编织技术,跨源、跨引擎的数据能够被统一的编程语言串联在一起,用户仅需使用一套 SQL 语言即可轻松访问和利用这些数据资源。

其次,数据编织显著降低了运维负担。通过查询加速、下推等先进技术,自动化处理了传统 ETL 流程中的任务配置和作业运维等环节。用户无需关注调度作业的具体执行,因为这些操作已被平台内置的加速任务所优化和自动化,从而实现了免运维的目标。此外,在模型定义层面,数据编织方案使得逻辑表的变更变得简单且高效。当表的逻辑发生变化时,下游数据能够自动生效,无需进行繁琐的数据回刷操作,这大大降低了变更过程中的复杂性和出错风险。

最后,数据编织还具备自治理能力。在传统数仓中,大量跑批任务的管理和监控需要耗费繁重的人力。然而, Aloudata AIR 主张按需物化特定数据,而不是全部物化。用户可以根据业务需求,在特定层级实现物化加速,从而在保证数据处理性能的同时,大幅降低存算成本消耗,并减轻了事后数据治理的压力。更进一步的,在 Aloudata AIR 逻辑数据编织平台中,生产端和消费端通过逻辑方式紧密相连,平台能够实时感知数据的消费状态。当发现加工出的数据未被消费时,平台会自动回收相应的物理作业和数据,从而有效避免了资源的浪费。

Aloudata AIR 逻辑数据编织平台的两项关键技术

首先是查询下推。我们以一个跨源数据查询场景为例来进行介绍。假设需要从 MySQL( call_center 维表,100 条数据)和高斯数据库(catalog_sales 事实表,2 亿条数据)中分别获取数据进行 group by 和 sum 操作时,传统跨源查询引擎(如 Presto、Spark )通常会将两张表的数据全部抽出,然后在引擎内部进行计算。这种方式不仅导致大量数据的传输,还增加了处理负担。

在 Aloudata AIR 中,查询下推引擎能够根据数据源特性和 SQL 算子特性,智能地将计算任务下推到数据源端执行。以 group by 操作为例,引擎可以首先根据 call_center 的 ID 在高斯数据源端进行预聚合,经过这样的优化,原本需要传输的两亿多条数据缩减至仅 100 条,极大地提高了传输效率并降低了查询成本。

此外,Aloudata AIR 在查询下推技术方面还进行了多项扩展,提供了可定制的下推策略,以满足不同数据源对下推支持的差异。在企业真实场景下,有些数据源可能是生产库,不允许进行下推操作;有些数据源则希望最大化地下推以提高效率。为此,Aloudata AIR 逻辑数据编织平台提供了丰富的下推策略配置选项,以满足不同需求。同时,平台还实现了全面的下推规则,包括 AGG 算子下推、JOIN 裁剪下推、UNION 下推等。

第二个关键技术是基于关系投影(RP)的智能查询加速技术,这也是数据编织不可或缺的关键能力。我们还是以一个报表场景为例,假设有一张 item 维表与一张销售事实表web_sales,如下图所示创建聚合RP:

使用 Aloudata AIR 的时候,我们可以首先为销售表定义加速的维度字段 item_sk ,并指定需要加速的度量字段,如销售单价和销售数量。这些定义会自动触发关系投影(RP)的生成,该过程类似于拥有一个智能的 ETL 工程师助理。用户只需表达需求,即定义维度和度量,而助理则负责实现底层的 ETL 作业、物理表创建、依赖调度等复杂任务。


假设我们的查询 Query 如下:

SELECT SUM(ws.ws_sales_price), item.i_category

FROM web_sales ws

LEFT JOIN item ON ws.ws_item_sk=item.i_item_sk

GROUP BY item.i_category_id


当虚拟化引擎执行查询时,查询会被改写如下:

SELECT SUM(RP.ws_sales_price), item.i_category

FROM RP LEFT JOIN item ON RP.ws_item_sk=item.i_item_sk

GROUP BY item.i_category_id


关系投影(RP)在此过程中发挥核心作用,它首先对 web_sales 事实表进行细粒度的汇总。随后,当这个汇总表与 item 表进行 join ,可极大降低汇总查询需要扫描的数据量,从而能够快速生成最终的汇总结果。这种查询改写能力是实现查询加速的关键。并且,这类加速还可以应用到 item 表其它字段的 group by 查询。

Aloudata AIR 逻辑数据编织平台的查询加速不仅限于 AGG 加速,还包括明细投影加速和多层视图嵌套加速等多种加速能力。这些加速技术的综合运用,使得无论数据跨越何种源、无论数据规模如何庞大,甚至在百亿级数据的场景下,也能实现秒级的数据查询。

来源:Aloudata大应科技

相关推荐