摘要:在企业数字化转型的深入探索中普遍存在两类显著的数字化需求:一类是数字化管理,另一类是数智化运营。这两种需求具有截然不同的特性。数字化管理侧重于为管理层及有限受众提供基于固定模板的决策支持,其需求稳定且可预测,类似于精准射击固定靶。而数智化运营则要求高度灵活,能
01
数据编织价值评估指南
在企业数字化转型的深入探索中普遍存在两类显著的数字化需求:一类是数字化管理,另一类是数智化运营。这两种需求具有截然不同的特性。数字化管理侧重于为管理层及有限受众提供基于固定模板的决策支持,其需求稳定且可预测,类似于精准射击固定靶。而数智化运营则要求高度灵活,能够快速捕捉并响应业务运营中的动态变化,分析目标与维度在分析实践中逐步明确,犹如追踪移动靶的射击,分析需求在业务运营过程中持续涌现。
回顾数据平台和数据工程体系的演进过程,在早期信息化阶段,传统数据仓库能够很好地满足由管理驱动的“看数”需求。但随着互联网和移动互联网的快速发展,数据分析需求、数据分析人群、数据源和数据量爆发式增长,推动企业数据工程体系进入到分布式湖仓和数据中台阶段。
同传统数仓相比,以分布式湖仓架构为基础的大数据基础设施具有弹性可伸缩、兼顾结构化和非结构化数据的特点,可以支撑大规模数据处理。但国内以“数据中台”为代表的分布式数据平台就是一种完美的数据技术体系么?当我们结合真实的企业业务场景,对数据体系进行严肃的技术选型时,应该考虑哪些评估要素呢?
Aloudata 结合团队丰富的数据平台建设与管理经验,建议通过以下要素进行选型评估:
技术的业务匹配度:传统数据中台实现了大数据量下打“固定靶”的需求,但仍因其依然依赖数据的物理集中和搬运,难以迅速适应业务需求的动态变化。因此,企业需寻求一种能够紧密贴合业务节奏,实现数据即时可用,促进业务灵活创新与决策的技术方案。技术的组织就绪度:首先数据中台技术栈复杂,涉及实时计算、流计算等技术和工具;其次物理建模要综合评估业务需求、响应时效和成本。可见数据中台对企业数据团队的专业性和规模都有着较高要求,人力成本高昂。因此,企业需评估技术方案的易用性,寻找那些能够降低技术门槛、简化数据处理流程、专业经验不足的小规模团队也能高效管理和利用数据的解决方案。技术的 ROI:传统数据中台方案往往需要先期投入大量资源构建基础设施,回报周期较长,且需要长期持续投入,而投资的收益又并不够清晰可衡量。因此,企业应寻求一种轻量级、高效益的技术方案,无需大规模的数据集中存储,能够快速部署并产生实际业务价值。结合上述三个维度的分析,我们不禁要问:是否存在一种更为敏捷、灵活的数据管理架构,能够有效应对企业从数据平台初建到深化应用的全过程挑战,既能实现从 0 到 1 的建设,又能从 1 到 10 激活数据资产?
数据编织(Data Fabric)正是解决上述各类问题的一种先进的技术管理理念。
近年来,数据编织一直被 Gartner 列入新兴技术趋势报告中,通过数据编织,可以有效地解决企业用数的效率、成本、组织、合规等各个方面的问题。但在国内,真正将这一架构理念付诸实践的企业仍属罕见。值得庆幸的是,通过 Aloudata 及其领先行业的探索与实践,数据编织已在银行、制造、医疗等多个关键领域成功落地,证明了其在实际应用中的可行性与价值。
我们可以通过一个简单的场景示例来解构数据编织的技术实现机制。
假设业务的需求是生成两张报表:一是按会员等级统计每日订单金额,二是按产品类别统计每日订单金额。在传统数据仓库架构中,需要先将散落在各数据源中的数据物理同步至数据仓库,进而构建会员表、产品表及订单明细表,随后是基于这三张事实表和维表构建订单宽表,并在此基础上进一步加工出所需指标的两张汇总表,以满足报表的查询需求。此流程涉及六个物理表的创建,以及配套的数据同步、加工、调度、运维等多项任务。
对于相同的场景与需求, Aloudata AIR 逻辑数据编织平台的独特之处在于引入了逻辑表的概念。
无需物理数据的同步操作,仅需连接数据源,逻辑构建会员表、产品表及订单明细表。在此基础上,构建逻辑订单宽表,该表同样不涉及物理数据的存储与同步。针对报表需求中按照会员等级与订单分类统计订单金额,构建关系投影(RP)以实现查询加速。两张报表仍然直接查询逻辑订单大宽表,而查询请求会自动路由至 RP(加速后的数据上),从而保障报表的查询性能。在这种模式下,只创建了一张加速物理表。
这一对比清晰地展示了传统数据研发流程与 Aloudata AIR 逻辑数据编织平台的研发流程的根本差异。后者通过逻辑表与关系投影的灵活应用,显著简化了处理流程,提升了数据处理的敏捷性与效率,并降低了存算开销与任务配置与运维相关的人力投入。
首先,它实现了数据的零搬运。在数据编织环境中,无需进行数据的物理集成,从而避免了数据在不同系统之间的冗余存储。通过数据编织技术,跨源、跨引擎的数据能够被统一的编程语言串联在一起,用户仅需使用一套 SQL 语言即可轻松访问和利用这些数据资源。
其次,数据编织显著降低了运维负担。通过查询加速、下推等先进技术,自动化处理了传统 ETL 流程中的任务配置和作业运维等环节。用户无需关注调度作业的具体执行,因为这些操作已被平台内置的加速任务所优化和自动化,从而实现了免运维的目标。此外,在模型定义层面,数据编织方案使得逻辑表的变更变得简单且高效。当表的逻辑发生变化时,下游数据能够自动生效,无需进行繁琐的数据回刷操作,这大大降低了变更过程中的复杂性和出错风险。
最后,数据编织还具备自治理能力。在传统数仓中,大量跑批任务的管理和监控需要耗费繁重的人力。然而, Aloudata AIR 主张按需物化特定数据,而不是全部物化。用户可以根据业务需求,在特定层级实现物化加速,从而在保证数据处理性能的同时,大幅降低存算成本消耗,并减轻了事后数据治理的压力。更进一步的,在 Aloudata AIR 逻辑数据编织平台中,生产端和消费端通过逻辑方式紧密相连,平台能够实时感知数据的消费状态。当发现加工出的数据未被消费时,平台会自动回收相应的物理作业和数据,从而有效避免了资源的浪费。
首先是查询下推。我们以一个跨源数据查询场景为例来进行介绍。假设需要从 MySQL( call_center 维表,100 条数据)和高斯数据库(catalog_sales 事实表,2 亿条数据)中分别获取数据进行 group by 和 sum 操作时,传统跨源查询引擎(如 Presto、Spark )通常会将两张表的数据全部抽出,然后在引擎内部进行计算。这种方式不仅导致大量数据的传输,还增加了处理负担。
在 Aloudata AIR 中,查询下推引擎能够根据数据源特性和 SQL 算子特性,智能地将计算任务下推到数据源端执行。以 group by 操作为例,引擎可以首先根据 call_center 的 ID 在高斯数据源端进行预聚合,经过这样的优化,原本需要传输的两亿多条数据缩减至仅 100 条,极大地提高了传输效率并降低了查询成本。
此外,Aloudata AIR 在查询下推技术方面还进行了多项扩展,提供了可定制的下推策略,以满足不同数据源对下推支持的差异。在企业真实场景下,有些数据源可能是生产库,不允许进行下推操作;有些数据源则希望最大化地下推以提高效率。为此,Aloudata AIR 逻辑数据编织平台提供了丰富的下推策略配置选项,以满足不同需求。同时,平台还实现了全面的下推规则,包括 AGG 算子下推、JOIN 裁剪下推、UNION 下推等。
第二个关键技术是基于关系投影(RP)的智能查询加速技术,这也是数据编织不可或缺的关键能力。我们还是以一个报表场景为例,假设有一张 item 维表与一张销售事实表 web_sales,如下图所示创建聚合 RP:
使用 Aloudata AIR 的时候,我们可以首先为销售表定义加速的维度字段 item_sk ,并指定需要加速的度量字段,如销售单价和销售数量。这些定义会自动触发关系投影(RP)的生成,该过程类似于拥有一个智能的 ETL 工程师助理。用户只需表达需求,即定义维度和度量,而助理则负责实现底层的 ETL 作业、物理表创建、依赖调度等复杂任务。
假设我们的查询 Query 如下:
SELECTSUM(ws.ws_sales_price), item.i_categoryFROMweb_sales wsLEFT JOINitem ON ws.ws_item_sk=item.i_item_skgroup BYitem.i_category_id当虚拟化引擎执行查询时,查询会被改写如下:
SELECT SUM(RP.ws_sales_price), item.i_categoryFROM RP LEFT JOIN item ONRP.ws_item_sk=item.i_item_skGROUP BY item.i_category_id关系投影(RP)在此过程中发挥核心作用,它首先对 web_sales 事实表进行细粒度的汇总。随后,当这个汇总表与 item 表进行 join ,可极大降低汇总查询需要扫描的数据量,从而能够快速生成最终的汇总结果。这种查询改写能力是实现查询加速的关键。并且,这类加速还可以应用到 item 表其它字段的 group by 查询。
Aloudata AIR 逻辑数据编织平台的查询加速不仅限于 AGG 加速,还包括明细投影加速和多层视图嵌套加速等多种加速能力。这些加速技术的综合运用,使得无论数据跨越何种源、无论数据规模如何庞大,甚至在百亿级数据的场景下,也能实现秒级的数据查询。
从数据视角和业务效果两个层面出发,综合考虑三个核心维度和两个关键指标。
在数据视角方面,首要关注的是数据交互效率的提升。这涵盖了数据从中间表到最终消费的全链条加速,无论是数据加工的即时性,还是端到端的数据流转速度,都是衡量数据编织价值的重要标尺。其次,数据的膨胀系数也是一个不可忽视的维度。随着数据量的不断增长,如何有效控制物理表的数量和分区数,降低数据仓库的膨胀系数,成为评估数据编织技术优劣的关键因素。最后,减少数据管理的成本同样至关重要。数据管理成本既包括资产模型的定义与管理,也涵盖日常的运维保障,如数据时效性和数据治理等,都是评估数据管理效率的重要指标。
在业务效果层面,主要通过两个关键指标来评估数据编织的价值。一是当天需求的满足率,即业务团队提出需求后,数据编织平台能够迅速响应并满足的比例。这一指标直接反映了数据编织平台的灵活性和响应速度。二是当天数据的动销率,即每日加工出的数据中,实际被业务团队使用的比例。在传统数据中台中,这一比例往往较低,一般不会超过 50% 。这主要源于物理表的过度建设和重复建设。而数据编织技术通过优化数据架构和加工流程,能够显著提高数据的动销率。
第一类,在企业初次构建数据仓库或数据中台时,数据编织,尤其是 Aloudata AIR 逻辑数据编织平台,成为优选方案。它简化 ETL 的复杂性,基于数据虚拟化引擎轻松完成全域数据的逻辑集成、逻辑整合和统一查询,赋能企业低成本快速构建自运维的逻辑数据仓库,比传统数据中台方案减少至少 50% 的综合成本。
第二类,对于拥有众多子分公司、且子分公司各自拥有独立数据仓库与团队的大型企业而言,数据编织实现了不同步数据,无需大额投资存算资源,不改变数据权属关系,不破坏数据安全管控边界,跨平台、跨系统地无缝整合与实时共享大规模数据,实现数据驱动的快速决策与创新。
第三类,在跨云、跨地域的联合分析场景中,数据编织打破了地域与云平台的限制,通过“联邦本地计算”的跨境数据查询方案,在数据不流动的情况下实现境内外数据的统一关联分析和快速查询,确保数据使用过程中的合规和敏感性保护,全面提升跨境数据分析效率。
第四类,针对业务自助用数的需求,数据编织为业务部门提供了灵活、高效的数据访问与查询能力。无论数据存储在多个数仓还是单个数仓中,甚至当所需数据不在数仓内时,通过逻辑数据编织平台都能迅速响应业务需求,实现数据的即时查询与利用,加速业务决策过程。
首创证券在构建数据仓库时,面临了人员短缺与 Hadoop 技术栈不熟悉的挑战。传统 Hadoop 数仓体系需要庞大的 ETL 开发团队和深厚的技术积累,这对于仅有少数数据分析人员的首创证券来说,无疑是一大难题。
Aloudata AIR 逻辑数据编织平台为首创证券提供了破局之道。通过 Aloudata AIR ,他们成功构建了一个逻辑数仓,将各业务系统的数据无缝连接。在 ODS 层实现逻辑连接后, DWD 层则用于沉淀数仓的历史数据。这种分层策略不仅简化了数仓结构,还实现了数据的按需加速与物化,大大提高了数据处理的灵活性。
进一步地,首创证券结合了 Aloudata CAN 自动化指标平台,形成了从数仓数据沉淀到业务指标开发的完整链路。Aloudata AIR 负责数据的逻辑编织与沉淀,而 Aloudata CAN 则基于这些明细数据构建业务语义模型与指标。这一组合使得业务核心指标与各类分析需求的实现变得高效且自动化。
在实施效果方面,首创证券的源头数据库多达一百多个,涉及几万张表。在传统方案下,仅集成这些数据就可能产生成千上万的任务,耗时费力。然而,通过 Aloudata AIR ,这些表在短短一天内就完成了集成。更值得一提的是,真正在明细层沉淀的表数量不到 100 张,大大降低了数据管理的复杂度。此外,报表的查询响应率也显著提升,一秒内响应率达到 95% 。这得益于 DWD 层的数据加速与沉淀策略,以及应用层查询的自动路由机制,确保了查询的高效执行。
综合来看, Aloudata AIR 逻辑数据编织平台与 Aloudata CAN 自动化指标平台的结合,为首创证券的数据应用场景带来了显著的效率提升。从运营效率、查询性能到管理成本,均实现了质的飞跃。
在拥有众多子公司、数据仓库及数据湖的大型企业场景中,实现全公司数据的统一视图与高效分析是一大挑战。传统方案往往需要将各子公司的数据汇总至总部,这一过程不仅成本高昂,还可能在组织管理和数据安全方面引发诸多问题。
Aloudata AIR 无需搬运任何子公司的数据,即可实现总公司对子公司数据的即时访问与利用。同时,能够将计算任务下推至子公司的计算引擎执行,形成“数据不出域,算力能下推”的模式。
此方案的核心优势在于其快速整合全域数据的能力,以及提供的统一数据服务。Aloudata AIR 作为中枢,能够无缝连接各子公司的数据,无论数据位于何处,均可通过该平台统一对外提供服务。这种多租户模式的引入,不仅方便各子公司对自身数据的逻辑管理,也促进了数据的共享与协作。
此外,在分析数据时,平台能够智能优化查询路径,利用最合适的计算资源,从而大幅提升查询效率。这一特性对于需要快速响应市场变化、做出精准决策的大型企业来说至关重要。
在跨国企业场景中,面对国内乃至海外多地的数据分布,传统的数据处理方式显得尤为不便。特别是当海外数据需要与国内数据进行联合分析时,手工下载、传输数据的方式不仅效率低下,还难以满足跨源分析的需求,更无法确保数据的合规性与安全性。
为解决这一问题,企业采用了 Aloudata AIR 逻辑数据编织平台,并构建了跨地域的级联部署架构。在总公司部署 Aloudata AIR 平台的同时,于海外机房内部署虚拟化引擎的代理端,实现了国内外数据的无缝连接与跨域分析。这一架构不仅打破了地域限制,更在数据处理过程中融入了数据安全管控机制。
Aloudata AIR 逻辑数据编织平台在查询下发时,能够自动对敏感数据进行脱敏与加密处理,确保数据在传输与查询过程中始终符合法律法规要求,有效规避了数据合规风险。同时,平台还通过加速与下推策略的组合应用,大幅提升了跨源查询与分析的性能,使得海外数据的汇总与国内数据的联合分析变得快速而高效。
02
圆桌:数据编织落地策略与价值评估
Q1:因为什么原因,在什么时间点,关注到了数据编织?
徐:从康明斯中国的角度,我们有很多合资企业,业务架构相对复杂。中国业务的数据要进行本地化存储,面向总部只能提供汇总处理后的报表数据。以这样的形式上报数据,主要源于两方面考量:一是国家对数据安全管理的日益严格及相关法规的不断完善;二是企业内部对数据资产保护意识不断增强。鉴于此,我们开始关注到数据虚拟化技术和数据编织理念,以解决合资公司与总部间数据迁移的难题。同传统数据架构相比,数据虚拟化技术能够实现在数据保留于本地的同时,无需进行物理迁移,即“零搬运”完成数据的集成整合。
袁:我接触并应用数据编织比较早,大概在 2022 年,作为数据服务提供商。当时我们服务的客户群体普遍拥有众多数据仓库和数据湖,然而,前端业务用数需求变化极快,传统的数据架构难以适应,响应节奏很慢。因此,我们开始关注并应用数据编织。
现在作为西卡中国 BI 和数据负责人,面临的问题是,我们拥有云上和云下的数据资源,以及大量的手工数据,这些数据跨越不同区域,并涉及数据安全与合规等问题。如果采用传统数据架构整合数据,将耗费大量成本和精力,也无法保证数据的时效性和可用性,难以有效支持业务的用数需求,而数据编织则能够高效地解决这一问题,并提升数据使用的灵活性和响应速度,更好地满足业务需求。
周:我们与其他企业不同,并不是先有了数据编织的概念,然后去落地实施相关技术与产品。相反,我们是基于实践探索,希望能够解决传统 ETL 的痛点,进而自主研发了数据虚拟化技术。在此基础上,我们提出了 NoETL 的理念,包括自动化数据管理的价值主张。事后看,我们的 NoETL 理念与数据编织高度契合,也就自然成为数据编织架构理念的拥立者、实践者和引领者。
Q2:数据中台作为经典的数据架构方案,存在哪些痛点?
徐:目前,很多企业还是会利用数据中台来支撑数据分析。但在采用数据中台的过程中产生了很多痛点,比如原始数据与数据中台的数据往往存在多重备份,造成资源浪费,对整个网络带宽也构成较大消耗,特别在涉及大规模数据迁移时。而对于像我们这样的跨国企业,最大的问题是,虽然成本问题通过架构优化可能得以缓解,但数据合规性却是一个普遍且难以绕过的挑战(几乎所有跨国企业在某种程度上都会遭遇这一问题)。因此,数据编织给我们提供了一个可行的解决方案。而且若不采用数据编织,甚至会在技术进步方面远远落后于行业内的先进企业。
袁:从数据源到数据生产再到数据消费,这中间存在一条冗长的加工链路,涵盖了大量的数据迁移、转换及维护作业。采用数据中台,需要配备大量专业 ETL 技术人员,这无疑增加了企业的运营成本。随着数据类型及加工链路的日益复杂化,相关的维护成本也随之攀升。此外,随着 IoT 数据的快速增长,这些数据需要被即时计算与利用。若继续沿用传统的数据中台架构,将难以充分发掘出数据的最大价值。
尽管数据中台的初衷是整合数据,为企业提供了一个整体的数据视图,但成本、开发与维护效率及实时性等问题已成为显著问题。在当前降本增效成为企业普遍推行的战略背景下,许多企业将数据团队视为成本中心。因此,数据团队亟需寻找新的方案,以解决成本高昂、开发与运维繁琐以及数据搬运受限等问题。
还有一个痛点,是数据的整合过程消耗的时间过长,但前端的业务决策、产品创新的用数需求越来越快,而复杂或过长的数据整合链路,也就无法及时响应业务需求。这是业务和技术方需要平衡的一个关键点。如果数据团队无法给业务决策提供及时的支持,那数据价值就会砍半。
周:首先,数据中台的概念虽已在业界达成共识,但从全球视角及历史维度审视,其逻辑并非普遍适用。数据中台更多地被视为互联网快速发展阶段的一种最佳实践。随着数字化转型在传统企业中的推广,数据消费场景多样化,我们必须考量企业内部是否具备相应的文化与机制,以支撑数据中台的构建与实施。
其次,关于降本增效的问题,若数据技术的应用反而导致成本上升,尤其是因为协同工作增加而产生的额外成本,则需探索更为有效的解决方案。我们观察到的一个趋势是,业务对数据应用场景的增多,越来越多的依赖于数据支持业务决策与产品创新(尽管并非所有创新都能直接转化为业务价值),以达成降本增效的目的,但如果数据技术所需的 IT 成本过高,那就形成一个矛盾。一方面,IT 部门需确保新技术能带来业务价值,才可以推广;另一方面,业务部门认为,若缺乏数据分析,业务价值的产生将无从谈起。这导致 IT 部门争取预算时遭遇业务部门质疑,认为预算过高,而在实际使用时又感觉支持不足。
所以,数据编织或可成为一种可行的解决方案。
Q3:介绍一下数据编织和数据中台有哪些差异点和优势?
周:从技术视角分析,数据中台是物理集中式架构,侧重于物理搬运与统一归集,要求所有数据流向一个中心,以便进行全域数据分析,主要载体是物理化的数据仓库,它是互联网时代数据管理的一种最佳实践。然而,近十年来,云环境的变化、合规性要求的提升以及跨国协作需求的增加,数据编织架构开始受到关注。数据编织主要通过数据虚拟化技术实现对全域数据的逻辑化集成整合,而非物理集中,它同样提供了一个统一的访问接口,但这个接口主要暴露给用户侧,而非技术侧。
进一步说,数据中台的数据处理流程高度依赖于 ETL 工程师的人工操作,数据编织更加强调自动化,减少人工作业,并能够通过引入如人工智能与 AI 算法,不断增强数据处理与分析的智能化水平。
从场景价值来看,还是要看企业数字化阶段,比如 0 到 1 阶段,过去 5 年,众多企业采用了数据中台架构,但是现在很多公司开始采用数据编织架构,采用逻辑数仓的方式,目前我们服务的客户反馈,数据编织架构所展现的效果显著优于数据中台。另一类是数字化从 1到 N 阶段的企业,他们拥有更加多样化的新型应用场景,比如银行客户,尽管表面上看似采用集中式技术架构,但深入分析后,会发现既有上一代计算引擎,也有各类应用集市,因此在数据访问层存在“数据孤岛”、业务响应慢、依赖于 IT 资源支持,以及数据合规等问题。那如何在为新型场景提供数据支持的同时,还能实现数据的集中管控?这其中涉及到访问切片的问题,数据编织架构可作为一种有效的解决方案,被应用于这一层,以实现数据的高效整合与访问控制。
袁:随着数据规模的持续增长、数据存储位置的多样化以及技术发展的日新月异,企业对数据访问的时效性和灵活性需求也在不断变化,这促使数据架构不断演进,比如数据中台、数据编织,以通过对“多源异构”的数据整合,为企业提供统一的数据视图。然而,不同的数据架构在实际应用中的场景存在显著差异。数据中台的数据存储模式主要是物理集中式的。数据编织更多地提供一种虚拟化的逻辑集成方案,能够在云上、本地系统以及多个存储位置之间构建统一的虚拟访问层,不仅解决了数据迁移的问题,还有助于应对数据合规性的挑战。
此外,数据编织具备灵活应对前端需求变化的能力。它通过采用 NoETL 的方法、数据虚拟化技术,显著缩短了数据集成与整合的链路,从而能够迅速响应前端对数据使用的需求。由于数据编织能够轻量化集成所有的数据点,因此它还能够提供即时服务以及数据应用,进一步提升了数据利用的效率与灵活性。
在我看来,企业在数字化转型的不同阶段和不同应用场景下,这两种架构可能会融合形成一种数据生态,它们并非相互替代的关系,而是可以相互融合、互为补充。
徐:从架构层面分析,数据编织所能提供的最大优势在于,它能够推进自服务场景。因为就数据而言,业务部门本身是最了解数据的,如果业务部门无法直接获取所需数据进行分析,则可能导致数据处理过程中的误解与偏差。所以通过数据编织,我们可以将数据分析的能力给到业务,无需依赖 ETL 开发,即时获取并充分利用数据价值。
袁:我很赞同徐老师的观点,将数据分析能力给到业务,有助于实现数据的民主化,使得更多需要数据的人员能够快速利用数据,挖掘数据价值,更好地服务于业务和用户。某机构也曾发布一个报告,在企业内部,真正能够使用到数据的人仅在 10% 左右。如果采用数据编织,可以让需要使用数据的人,及早拿到数据,实现自服务。
Q4:是否有做过数据编织的落地探索?是否有一些收益体现?
徐:虽然在中国区,我们现在还没有落地使用数据编织,但正在探讨如何向业务部门展示数据编织的价值,以推进落地。作为一家合资企业,数据合规性是我们很看重的一个考量因素,因为最底层的需求是,数据不得进行物理迁移,但按照总部和管理的需求,希望能够获得覆盖到合资工厂的业务数据。这便引发了两个问题:一是如何确保数据的安全性,二是总部如何有效获取合资工厂的业务数据。
袁:我们正进行一系列 POC 测试。作为一家跨国企业,我们的核心数据源位于云端且部署在海外,中国的数据中心采用本地部署方式,我们还拥有大量如精准营销数据和售后服务数据等。若采用传统数据中台架构,会面临中国及欧洲数据法的合规挑战,且大规模数据迁移将耗费巨大成本。而采用数据编织能够将整个数据整合周期缩短 40%,并适应快速变化的业务需求,实现数据整合与不断调整的并行处理。此外,我们还希望通过数据编织,将数据开放给财务、销售等业务人员,以推动他们的业务发展。
周:数据编织的第一个好处是业务的响应效率提升,通过把 ETL 过程的封装,实现自动化,降低了上手门槛,给业务充分的自由度;第二个是降本,传统 ETL 技术是通过“空间换时间”的架构,是一种“先生产后消费”的模式,一定存在大量有更新但无使用的数据,这意味着至少会有 30% 存算资源浪费(数据库存),数据编织通过数据虚拟化和动态自适应查询加速,实现了一种“以销定产”的模式,可以减少存算资源的浪费,节约至少 30% 以上的存算成本。
所以我们提出了两个关键指标,一个是当天需求满足率,是站在业务方视角评估和感受数据平台能力和价值的唯一核心指标,也是数据产生业务价值的重要体现之一;另一个是当天数据动销率,是对存算资源是否合理使用的量化指标,即当天有更新的数据在当天或未来段时间内(比如 30 天内)的使用率(有没有下游场景对数据产生访问)。
Q5:对数据编织的发展和应用有哪些展望?
徐:现在我们已经步入数据时代,数据量正以几何倍数迅速增长,为了有效利用这些数据,工具需具备高效性、成本效益以及使用友好性。相较于数据中台,数据编织是一种增强型的解决方案,所以在我看来,未来 3-5 年内,数据编织有望成为数据挖掘、数据分析及数据自服务的重要工具,发展前景广阔。
袁:我认为,随着 AI 的不断进步,数据编织将进一步推动数据整合的自动化,极大减少人工作业,提升数据处理的效率,降低运营成本。现在数据编织的核心价值主要体现在企业内部的数据共享与整合,打破“数据孤岛”,促进了信息的流通与协同。未来,数据编织有望打破行业界限,促成跨行业的数据共享与合作,推动整个社会经济的数字化转型。
周:IT 技术的发展一般是以 10 年左右为周期,现在我们迎来了数据中台的拐点期,数据编织正被越来越多的企业关注和接受。根据 Gartner 的预测,以及从现实我们服务的客户的反馈,我们对数据编织还是持比较乐观的态度,预计在未来一两年内,领先企业的示范效应将日益显著,推动数据编织在更广泛的场景中应用,因为我们刚刚提到的效率、成本等场景需求是无法回避的。
来源:DataFunTalk