好数据驱动真智能:NoETL + 大模型 = 万数皆可问

360影视 动漫周边 2025-03-27 15:43 4

摘要:非常高兴今天有这么多朋友来参加 NoETL指标平台最佳实践研讨会。今天我的分享分三个部分。首先,我会回顾过去一年 Aloudata 在 NoETL 领域的探索和进展。其次,结合当前 DeepSeek 等大模型的热点,分享我们的观察与思考。最后,我会介绍 Alo

文章整理自肖裕洪演讲内容(肖裕洪|Aloudata 联合创始人 & 首席产品官)

非常高兴今天有这么多朋友来参加 NoETL指标平台最佳实践研讨会。今天我的分享分三个部分。首先,我会回顾过去一年 Aloudata 在 NoETL 领域的探索和进展。其次,结合当前 DeepSeek 等大模型的热点,分享我们的观察与思考。最后,我会介绍 Aloudata CAN 指标平台在 Data for AI 与 AI for Data 两方面的能力升级。

Part 1:Aloudata 在 NoETL 领域的探索进展

自 2023 年底推出 Aloudata CAN 指标平台以来,我们获得了业界的广泛关注和积极反馈。今天,我想再次分享我们对“管研用一体化” 和 NoETL 的理解。我们认为,数据建设的核心在于应用,没有应用的数据管理和研发是没有意义的。业务需求其实很简单:更快、更准、更灵活地获取数据。然而,这种朴素的需求对传统的数据工程技术是有着很大的挑战的,这也是为什么我们需要 NoETL 的全新思路。

过去一年,我们与客户合作,致力于实现基于明细数据的指标定义和自动化加速,通过指标的定义、研发和管理一体化,确保 Aloudata CAN 能够为业务提供更灵活、更一致的数据消费体验。

其次,经过一年的实践,我们认识到开放才是真正以客户和用户为中心。我们的平台可以开放对接企业的各种引擎,充分利用客户现有的投资,并为未来的新技术和架构做好准备。此外,我们积极拥抱生态,不仅通过 JDBC、API 等方式与客户现有应用集成,还与 Quick BI 等 BI 工具无缝融合,与 WPS 合作推出指标插件,让用户能够在熟悉的工具中消费数据,不必改变原有的工作习惯。

客户的认可证明了我们走在正确的道路上。自平台商业化以来,短短一年时间,我们已经服务了 30 多家公司,且这些客户均为上市公司,涵盖了互联网、金融、零售、消费、制造等领域的领军企业。他们的选择代表了市场的方向,也验证了我们的价值。

而我作为产品负责人,更关注的是客户在实际使用中的效果。首先,从业务请求量和 API 调用量来看,尽管目前只有 30 家客户,但他们的周均查询调用量已达到亿级。我拿一个数据来对比一下,方便大家理解亿级的概念:蚂蚁集团过去一两万名员工的日均 BI 请求量大约在一两百万,需求的覆盖度达到 80%。因此,我们周均支持亿级的调用量并不是一件很容易的事情。

其次,作为 NoETL 指标平台,我们特别关注研发效能的提升。过去企业开发一个需求可能需要 1 到 2 周,紧急情况下也需要几天,而现在简单需求只需几分钟,复杂需求也仅需天级别即可交付。研发提效这一点,刚刚的几位嘉宾也都有提到。

Part 2:DeepSeek 等大模型对数据领域的影响

早在 GPT 推出前后,我们就密切关注大模型的发展。而 DeepSeek 的出现带来了几个显著变化:

首先是大模型的平权化。过去,对很多企业来说,私有部署先进大模型几乎是不可想象的,而现在,即便是个人电脑也能运行一个 32B 参数的模型。拥有一个智能的大模型不再遥不可及。

其次,大模型的智能化水平显著提升。它们的表达能力更加接近人类,能够生成更智能的推理结果。从市场反馈来看,围绕大模型和智能体的应用已经进入工程化加速阶段。对于企业而言,算力消耗的降低和模型平权化使得如何构建高质量私域数据并从中挖掘价值,成为未来竞争的关键壁垒

在消费侧,我们看到 Chat BI 等智能体等应用的兴起。我们认为,Chat BI 一定会成为趋势,但企业的智能体生态远不止于此。Chat BI 也不应仅仅是取数和分析的工具,它可能会演变出更广泛的应用场景。例如,麦当劳的店长未来可能会配备 AI 助理,每天早晨 AI 会分析餐厅的表现,指出问题并提供优化建议。

无论是 Chat BI 还是未来的智能体生态,都离不开两个核心要素:一是对话式的数据获取能力,二是主动的智能洞察能力

所谓主动洞察,是指不再被动等待用户查看报表或手动查询数据,而是通过智能化的方式,提前预判用户的需求并提供建议。未来的智能体发展方向可能是:系统知道你关心什么,主动提供数据和分析建议,用户只需确认即可。然而,要实现这一点,并非仅仅依靠模型平权就能解决。在实践中要解决下述痛点和挑战:

首先是意图识别的准确性。例如,在麦当劳中国的业务场景中,“订单数”可能被称为“GC”,而大模型面对一堆数据表时,可能无法理解“GC”指的是什么。类似地,在招商银行的场景中,“三大行”可能指的是北京、上海、深圳的分行,而非通常我们理解的工农中建交等头部银行。因此,我们需要将业务语义化,让大模型能够在人类语言和数据语言之间建立高效连接,避免自然语言问数比拖拽组合指标与维度还要麻烦。

其次是数据准确性与幻觉问题。在决策场景中,数据的准确性是刚需。例如,当用户查询“近七天的订单数”时,大模型生成的 SQL 可能直接对订单金额进行聚合计算,看似正确,但可能不符合企业对订单数的标准定义(如剔除刷单或测试订单)。这就要求我们将企业内的数据口径实现标准化沉淀,确保大模型生成的结果符合业务共识。

第三是数据的可得性。一旦开放 Chat 入口,就像打开了一个潘多拉的魔盒,业务对问数的预期会非常高。就像阿里内部 Chat BI 的口号“随便用,灵活用”,业务希望随时随地获取所需数据。然而,如果数据可得性不足,那很可能经常会问不出结果。

最后是性能与成本的平衡。在大规模数据场景下,大模型生成的查询可能会对数据库性能造成压力。例如,查询订单金额时,大模型可能选择明细表也可能选择汇总表,导致性能不稳定。因此,如何在保证性能稳定和成本可控的前提下,实现高效的数据查询,是未来需要重点关注的方向。

Part 3:NoETL x 大模型,Aloudata 产品关键升级

关于未来的发展方向,我们认为企业要实现真正的 Chat BI 和繁荣的智能体生态,关键在于拥有“好数据”,而不仅仅是部署大模型。

那么,如何打造“好数据”呢?我们的口号是“Less cost, more intelligence”,即以更低的人力成本、存算成本和应用接入门槛,实现数据的 AI-Ready,以高度自动化的数据工程体系推动企业智能生态的繁荣发展。

围绕这一理念,我们主要从两个方面展开工作:

第一,低成本实现数据高效就绪。具体通过以下三个核心举措:

持续增强指标平台的语义引擎,这是我们工作的基石。

语义化引擎是 AI 时代数据可理解、可应用的根本。今年我们将在语义引擎的几个关键点上进行重大升级。

1)指标定义的增强。

我们的目标是让企业能够以最优雅、最高效的方式定义指标和建模。比如支持多角色关系的建模,支持基于指标值定义和快速变更维度(标签),支持公共(杂项)维度的定义。通过增强指标定义能力,我们希望进一步提升建模与分析的效率,同时让语义更清晰、更易理解。

2)指标加速的增强。

加速是语义引擎的另一大核心。即使能够定义复杂的指标,如果无法高效计算,这些定义也毫无意义。在加速方面,我们重点优化了以下几点:

查询路由改写:针对复杂指标场景,优化匹配命中能力,减少物化任务的数量。物化构建效率:针对大规模明细数据(如日志表或订单明细),在叠加复杂指标逻辑后,计算量可能超出集群的承载能力。我们会进一步提升系统自动化能力实现更加合理的加速任务拆分,提升计算效率。Cube 加速功能:对于无法上卷的指标,我们推出了 Cube 加速功能,确保语义引擎能够覆盖全场景的加速计算。

3)指标治理的增强。

在指标治理增强方面,我们会进一步提高相似指标的识别能力,提供更加精细的审批管理和审计日志,并通过多环境发布和字段级的影响评估进一步提升数据质量。

推出智能建模助手。

我们将结合 AI 技术,推出智能建模助手(Copilot),以提升企业在复杂场景下的数据建模效率。具体来说,我们将在以下几个方面重点发力:

1)复杂指标与维度的创建。 在指标和维度的批量创建场景中,智能助手可以显著提升效率。例如,当引入一个新数据集时,通常需要将其字段标准化为维度或原子指标。这类任务的业务逻辑相对简单,但操作繁琐。通过 Chat 界面,智能助手可以快速理解用户意图,自动完成这些任务,大幅减少人工操作。

2)智能洞察语义收集整理。 此外,智能语义助手还可应用于更深度的语义生成和洞察分析中。归因分析是企业常见的需求,尤其是在指标波动时,需要快速定位问题。我们计划通过智能助手实现以下功能:

指标关键分析维度挖掘:智能助手可以自动提取常用维度或热门维度,帮助用户在多维归因分析的时候更好地选择合适的分析维度。例如,销售额下降时,系统可以自动分析是哪个渠道或产品线出了问题,而无需用户手动筛选。智能关联因子指标挖掘:智能助手可以自动从指标构建血缘、查询记录中挖掘出指标关联因子指标,帮助用户在归因时自动关联相关指标,提供更深入的洞察。例如,分析销售额下降的原因(如流量减少、转化率下降或客单价降低)。

3)智能加速与性能优化。 随着临时探索需求的增加,用户可能需要从多个维度动态分析数据。智能助手可以实时监测用户的分析行为,识别性能瓶颈或不经济的查询模式,并提前进行智能加速,确保分析体验的流畅性。

4)指标治理与管理。 我们希望通过智能助手的能力增强,帮助企业更高效地识别和管理指标。例如,智能助手可以自动盘点企业中的重复指标或无用指标,为管理者提供清晰的管理视图,提升治理效率。

Aloudata AIR 和 Aloudata CAN 的深度融合。

通过两大平台的深度融合,确保企业的所有数据能够轻松连接和高效利用,并为企业的多智能体生态提供单一可信的数据服务。

尽管目前这两款产品已经实现了初步融合,但我们认为仍有深化空间。我们希望在存算层、用户体系层、权限层和血缘关系上实现更深层次的融通。例如,当 Aloudata AIR 中的资产发生变更时,系统能够全链路追踪这些变更对指标及其服务的影响;同时,用户在查看指标口径时,也能追溯到最源头的数据。此外,我们致力于为用户提供一致的体验,例如,用户无需专门切换到 Aloudata AIR 连接数据源,而是可以直接在指标平台完成连接并定义指标。

为什么这一融合在当前时间点如此重要?随着大模型和智能体的爆发,我们判断企业对数据就绪速度的要求会显著提高。业务侧的需求不再局限于高度复用的场景,许多一次性或临时性的需求也需要快速响应。传统的物理入湖流程虽然规范,但效率和经济性较低。而数据编织(Data Fabric)则借助数据虚拟化技术达成轻量级数据集成与准备、按需物化的效果。我们在实际业务推进过程中,发现 Aloudata AIR 逻辑数据编织解决方案是为 Chat BI 进行快速、低成本的数据集成准备的理想方案。

通过两大平台的深度融合,我们能够以业务视角为导向,快速准备数据,并避免不必要的延迟和资源浪费。更重要的是,在 AI 时代,企业要为各种智能体提供一份单一可信的数据源,而 Aloudata AIR 同 Aloudata CAN 的深度融合形成了一个路径更短、成本更低、自动化程度更高的 NoETL 工程体系,将有力支撑企业的数字化重心从「数据呈现」转移到「数据洞察」。

第二,数据智能体创新。

今天,我很高兴向大家预告我们即将推出 Aloudata Agent,一款以“万数皆可问”为目标的 Chat BI 智能体

众所周知,Chat BI 在数据查询中面临诸多挑战,例如数据覆盖度不足、口径不一致导致的准确性问题、性能不稳定或不可控的查询响应问题,以及数据越权或泄露的安全问题。

因此一个真正 AI-Ready 的数据底座,是实现更好问数效果的前提。正是因为我们在增强语义引擎、智能建模助手,以及 Aloudata AIR 和 Aloduata CAN 的深度融合这三个方面有着严谨的思考和扎实的技术支撑,才有可能让 AI 智能体真正实现“万数皆可问”的目标。

我们通过逻辑化的数据集成和明细级的指标定义,确保企业数据的完整覆盖与快速就绪。首先,Aloudata AIR 能够轻量级连接企业全部数据源,并实现快速的明细模型开发。其次,Aloudata CAN 具有基于明细数据定义指标和自动化查询加速的能力,支持任意粒度和任意维度的指标查询。通过两者的结合,我们可以确保指标语义层拥有最大的数据覆盖度。

我们通过标准化的指标定义,确保大模型能够理解企业的数据口径和标准,并与业务需求对齐。

针对查询性能与成本的平衡,我们提出智能物化的解决方案:在数据量较小时,使用明细层;当数据量增大时,系统会自动生成物化表(汇总表),并根据查询需求智能选择最优路由。用户无需关心底层是明细表还是汇总表,系统会自动选择最佳路径,确保查询性能最优。此外,对于频繁查询的指标和维度,系统可以自动建立物化表,进一步提升性能。

在数据安全方面,我们通过指标平台的精细化权限管理,确保数据的安全可控。与传统的表级权限管理相比,指标和维度的授权更符合业务逻辑,也更易于理解和管理。

总之,“万数皆可问”不仅是一个愿景,更是我们通过技术手段实现的承诺。我们希望通过一个强大的 NoETL 数据底座,为上层的 Aloudata Agent 提供更完整的数据覆盖、更精准的数据语义、更强大的查询性能和更可靠的安全保障。

那 Aloudata Agent 会交付怎样的使用体验呢?

坦率讲我们推出的这款 Agent 并非成熟的终极形态,而是业界探索中的一个 0.1 版本。尽管如此,它已经具备了一些重要的功能和特性,能够为企业提供初步的智能化支持。

第一,对话式分析。

Aloudata Agent 支持灵活、准确的对话式取数、归因分析和智能分析报告生成。目前,它可以完成多维归因和因子归因,但与理想中的归因分析仍有差距。理想的归因分析应该像专业分析师一样,能够提出假设、验证假设,并不断迭代和探索,获得更深层次的洞见。未来我们会持续向这个方向进行迭代升级。

第二,分析过程透明化。

在 Chat BI 这种容错性较低的场景中,分析过程的透明化至关重要。Aloudata Agent 会清晰呈现分析过程,保留中间产物,确保用户能够清晰地了解每一步的分析逻辑,以及在事后进行分析的回溯和审计。

第三,数据准确可信。

Aloudata Agent 的数据准确性依赖于 Aloudata CAN 指标平台的标准化语义沉淀。它能够将用户的问答与企业标准指标口径对齐,确保分析结果的准确性和可信度。

第四,数据安全可保障。

正如前面提到的,我们通过指标平台精细化的数据权限管理确保数据在分析过程中的安全性和可控性。

在推出自研的 Aloudata Agent 的同时,我们还会提供一组面向 AI 的 API 和 SDK,以赋能企业快速实现 AI 应用创新,构建智能体生态

Aloudata AI API 是一套致力于加速企业 AI 应用开发的工具集,尤其针对 RAG(检索增强生成)场景进行了深度优化,旨在通过简化数据集成与复杂分析流程,帮助企业更高效地构建智能应用。其核心功能与优势可概括为以下四大部分:

多层次 API 功能模块,覆盖全链路需求

元数据 API:提供指标与维度的元数据查询能力,包括热门维度检索、自然语言获取指标/维度、关联指标查询等,为数据理解与模型训练奠定基础。数据查询 API:支持预定义指标查询与自然语言直接获取数据结果,同时突破传统限制,允许查询时灵活衍生新指标,显著提升数据覆盖范围与灵活性。深度分析 API:集成指标多维归因、因子分析及异常诊断等高级功能,无需企业额外开发,即可快速实现业务洞察与问题定位。

专为 RAG 场景优化,降低开发门槛

通过自然语言交互接口,用户可直接以口语化提问(如“最近的销售额如何?”)获取结构化的指标与维度元数据,并以 JSON 格式返回结果,大幅简化大模型的数据接入与意图解析流程。传统流程中需要手动构建向量库、设计意图识别的繁琐步骤,而 Aloudata AI API 完成了以上能力的封装,帮助企业提升开发效率。

灵活性与一致性并重的数据查询能力 传统 SQL 查询虽然灵活,但缺乏标准化;预定义指标虽然准确性强但衍生能力不足。与这两种方式相比,Aloudata AI API 支持“查询时衍生”机制。企业既能确保指标计算的一致性与准确性,又能按需灵活组合、二次衍生复杂指标,满足智能体开发中对多样化数据的需求。

深度嵌入数据安全与权限管控

基于细粒度的行列权限控制,Aloudata AI API 在提供高效数据服务的同时,确保敏感信息的访问安全。企业可根据角色或场景动态配置数据访问权限,避免越权操作风险,实现数据全流程的可控性与合规性。

以上就是我今天分享的内容。同时预告一下,Aloudata Agent 将在 4 月启动公测,欢迎大家访问 Aloudata 官网预约

来源:Aloudata大应科技

相关推荐