28年数据枯竭？AI炼出数据飞轮2.0，智能体+多模态数据湖硬核掘金

摘要：OpenAI献上最强o1 pro、Sora Turbo，xAI发布全新自研MoE生图模型Aurora，还有谷歌Gemini 2.0 Flash出世。据称，GPT-4.5也被排上了日程。

12月过去一半，堪称年度AI含量最高、最热闹的两周。

OpenAI献上最强o1 pro、Sora Turbo，xAI发布全新自研MoE生图模型Aurora，还有谷歌Gemini 2.0 Flash出世。据称，GPT-4.5也被排上了日程。

大模型Scaling Law如火如荼地推进，唯一支撑不住的是数据量不够用了？

Nature最新头版再次敲响警钟——AI革命正「吸干」互联网数据的海洋。Epoch AI的研究更是直言不讳，预测2028年将是数据枯竭的关键节点。

但实际上，现实中还有很多数据，并没有被真正利用起来。

斯坦福教授李飞飞表示，在医疗、环境和教育等领域，尚有大量未开发的信息资源。对于数据的耗尽，我们的视野过于狭隘。

同样的，Ilya Sutskever也在刚刚结束的NeurIPS 2024大会上表示，「我们必须从现有的数据中寻找新的突破」。

在这个数据如金的时代，关键不仅在于如何拥有数据，更在于如何将其转化为新的「燃料」。

企业们不得不面临着一个命题：如何去管理、提取、分析与应用海量数据，挖掘数据潜能？

12月18日，在火山引擎在Force大会上发布的火山引擎「数据飞轮2.0」，正是要彻底打破这一桎梏。

它具体包含了两大亮点——Data Fabric驱动下的ChatBI智能体，以及多模态数据湖。

首先，ChatBI智能体可以充分提升企业数据分析、运营、管理的效率，让企业数据更加智能化。在这个生态系统中，数据不再是少数人的专属领地。从数据分析师到产品经理，每个角色都能轻松「驾驭」数据。

其次，多模态数据湖能够对海量的结构化、半结构化和非结构化数据进行统一管理，全面支持市场上各种数据格式，为LLM预训练、持续训练和微调各个环节提供更好的数据支持。同时，它还能更好地过滤和挖掘企业现有数据中的潜在价值。

正如发布会所呈现的，数据飞轮2.0，不仅仅是一套数据技术与应用解决方案，更是一种面向未来的商业数智化思维。

数据+AI融合，加速演进

在过去，企业的数据处理，就像是一台老旧的机器，需要繁琐的人工操作和复杂的技术架构。

商业智能（BI）的实现，主要依赖于数据库、数据仓、ETL等传统的处理数据模式。

如今，整个行业中大模型发展趋势，依旧在加速scale，大模型在推理中所产生的代码、文本、图像、视频等数据正在呈指数级增长。

在面对这些海量的非结构化、半结构化数据，甚至部分结构化数据时，传统的数据处理模式已显得捉襟见肘。

特别是，大量的原始数据因系统的扩展性，甚至是成本限制，不得已迫抛弃或闲置，这意味着企业正「主动」放弃潜在的商业价值。

大模型的出现，能够为这些数据价值重构，提供了更多的可能性。据称，机器学习的飞轮效应，能够让英伟达每年实现2-3倍的性能提升。

值得注意的是，大模型时代下构建数据基础设施，也并非易事。

构建一个生产级RAG应用，企业需要解决的是数据存储、版本控制、处理、评估等一系列复杂问题。尤其是数据整理，已经成为极其专业和复杂的技术领域。

随着大模型的发展，火山引擎发现将LLM和数据融合可以为普惠消费带来更大的机会。

这种基于LLM技术构建「数据飞轮 2.0」的核心优势在于，以数据消费为核心，大大降低数据消费门槛，让企业各个岗位员工都能轻松「看数据、用数据」，最终做出更科学的决策。

若想让这款生产级数据基础设施持续演进，还需要一个能够不断进化的「智能体」生态系统。

来自Capgemini 2024调查显示，高达82%的企业领导者，预计在未来3年会用智能体自动电子邮件、数据分析、软件代码等。

毋庸置疑的是，智能体也将会成为企业数智化转型的关键引擎。

但成功的关键在于：如何去构建能够适应复杂数据环境的智能体，以及能够高效存储和处理各种模态数据的数据湖，从而让数据飞轮高效运转起来？

Data Fabric驱动下的ChatBI智能体

对此，火山引擎数智平台的理念是，通过Data Fabric与智能体的结合，让企业实现数据分析场景下的降本增效。

先看ChatBI智能体部分。

对企业来说，它们需要收集海量业务数据，包括来自ERP软件、电商平台、供应链等的内外部数据源。

想充分利用这些数据，制定由数据驱动的决策，就需要现代的BI（商业智能）系统。

使用商业智能软件，比较不同年份的损益表（来源：SAP）

然而，传统BI却存在着多种不足。

比如仪表盘非千人千面，信息密度低，无法满足用户更广更深的看数需求；拖拽式查询的门槛不够低，限制了广泛的使用人群等等。

利用BI智能仪表盘，显示不同国家和地区以及不同业务板块的财务绩效（来源：SAP）

这时，AI技术的进步，尤其是智能体的出现，就能针对性地解决这些问题了。

这次提出的智能体，允许业务方去自定义自己的ChatBI，然后还能定义一些个性化提示词、行业黑话和自己的领域知识，来解决准确率的问题，让线上真实的准确率达到85%以上。

通过ChatBI智能体，用户可以使用类似聊天对话的自然语言查询，轻松与数据交互，获取商业分析报告和实时洞察，大幅降低了他们制作报表、制作看板去获取数据的难度。

具体来说，有以下三点——

1. 在使用难度上

传统敏捷式BI强调拖拽式自助分析，但对普通用户来说学习成本依然较高。而基于智能体驱动的BI，就可以让用户通过自然语言进行交互，从而降低使用门槛，让数据分析变得更加易用。

2. 在个性化层面

用户在运用自然语言发起提问的基础上，还可对所提问题予以收藏，同时 ChatBI还能够向用户推送可能感兴趣的问题。

在传统BI体系中，看板的创建者与使用者通常分属不同群体，而在ChatBI 智能体中，用户能够凭借自然语言完成个性化仪表盘的构建，从自身角度出发查看数据，大幅提升分析效率。

这种解决方案并非简单的问答系统，而是会记录用户常见问题和关注点，形成个性化看板，并支持深入追问。

3. 在生产效率上

传统BI往往需要生产者进行ETL、维护数据表、制作看板等工作。而智能体模式下，就只用维护单个智能体即可服务多个分析场景。

业务可以对智能体做定制，可以配置业务语义模型、行业黑话和领域知识，增强智能体的专业性。这种方式不仅可以替代大量传统仪表盘，还能解答更多长尾问题，显著提升人效。

上下滑动查看

火山引擎数据飞轮2.0中Data Fabric驱动的ChatBI（Chat-based Business Intelligence）智能体，正是基于这一理念的解决方案。

应用火山引擎的技术，用户可以灵活搭建起智能体。

左右滑动查看

在此基础上，就能支撑起多项业务消费，如主动问数、收藏常问数据、个性化推荐及自动推送等等。

以上就是智能体起到的作用。

这个方案中另一个重要部分，就是Data Fabric了。

Data Fabric是一种架构和技术框架，可以将企业中分散、孤立的数据资源，集成到一个统一、灵活和智能的数据管理平台中。

在这个过程中，一个主要问题是如何实现物理层与逻辑层的分离，从而使指标开发过程更专注于业务逻辑本身。

Data Fabric的解决方案则会结合指标的业务逻辑和实际消费情况去不断优化包括引擎选择、物化视图在内的物理层实现。从而能够实现简化指标开发、提升元数据质量、优化查询性能、降低存储成本并大幅度节约开发运维人力。

一定意义上来看，ChatBI智能体能够和Data Fabric一起帮助企业建立完整的智能数据服务体系。

上文提到，ChatBI可以让用户很容易地获取数据，而此过程中Fabric的思路，就是让用户简单做一些配置，底层就会自动完成数据的雾化和ETL。

由此，用户就可以很方便地建出更丰富的数据集市，再加上自然语言交互式的低门槛取数方式，可以极大提高数据消费的效率。

这，就是它区别于传统BI的一个核心点。

在这个过程中，数智平台也针对字节内部具体的业务场景，做了许多提升。

比如在ChatBI的场景中，怎样让LLM更好地理解数据，理解不同维度指标的含义，从而更准确回答数据分析和查询的相关问题？

这个过程的一个核心难点，就是准确率。

为此，团队在工程上，对模型能力做了持续的优化。

比如，通过让业务构建自己的智能体来将问题域限定在一定范围内，让用户能更聚焦地一个一个领域去提问，这样就避免了ChatBI的理解歧义。

又比如，在看数分析中，如果把数据表盲目发给大模型，会带来很多准确性的问题。

此时团队就想到，在数据表上去构建一个大模型容易理解的逻辑上的语义层，把更好、更优质的源数据去喂给大模型，这样就很大程度上解决了问题。

总的来说，ChatBI智能体这个形式在实际落地中，确实会遇到各种各样的问题。而数智平台团队凭借在字节内部广大的用户基础之上，经过内部不断验证，解决了实际落地过程中的各种问题，打磨出了一个内外统一的智能体产品。

目前，ChatBI智能体在内部大多数场景，都是可以经过检验的。

覆盖30%核心成员，平均回答时间不到6秒

下面，就是一个非常生动的例子。

A公司是一家面向全球的中国消费电子品牌。23年，公司的大数据平台建成后，如何让海量数据变成有价值的信息，成了难题。

为此，公司和火山引擎数智平台建立了深度合作，希望将数据抽丝剥茧，发挥价值。火山引擎的相关团队，也开启客户智能体陪跑计划。

数智平台团队分析出，客户在工作中存在以下痛点：

1. 数据基础情况：

数据已经在数据集里，存储在数据湖。异常指标可通过指标或维度过滤，如超过红线等，但异常检测较分散。

2. 数据汇报情况：

过去团队质量周报主要通过邮件发送，难以实现报表自定义化和互动化。

3. 数据分析问题：

看板比较分散，看一个问题的时候，都需要打开不同的看板去做分析、诊断；重点指标的异常数据，难以个性化展示出来；希望能够实现每日推送；周报关注的主要指标，希望能够实现推送，并且实现针对性推送。

为此，团队进行了诸多方案上的实践。

比如结合业务团队的使用场景，关闭无效字段，精简语义模型；提供语义模型配置，依据实际使用需求，定义输入大模型的字段；归整高度相似业务数据集，明确使用场景；业务常用词、同义词收集和维护等。

此外，团队还进行了指标的精细化配置。

通过数据集优化和模型优化，实现统计指标与参考线（平均值、标准值）对比

在DataWind中，图表的参考线示意图

另外，团队还进行了个性化推送配置。

根据不同的业务角色配置个性化推送内容，总结业务状况，提供常用的分析问题

最终，从活跃使用上说，核心成员覆盖率已经达到30%，质量团队整体覆盖率达到14%+。

公司内部的智能体业务落地范畴，也扩展到了3个团队。

另外，团队还针对性优化了智能体的性能，平均回答速度从过去的20s+，缩短至6s以内。

从业务价值上看，提升了决策效率、优化了资源配置、提升了质量管理水平、减轻了数据整合与维护负担、提升了数据服务满意度。

多模态数据湖

再来看多模态数据湖，它是在这个大模型席卷全球、逐渐普及的当下，应运而生。

当前，大模型的发展早已拓宽了文本的边界，图像、视频、语音各种模态共同涌现。自然而然地，企业对多模数据管理需求随之衍生，包括存储、计算等等。

那么，从数据湖的角度，我们如何更好地去管理好各种类型的数据？

面对大量且繁杂的结构化、非结构化、半结构化数据，许多企业仍旧使用的是txt、表格、文档进行记录。

这种方式带来的弊端是，大量潜在有价值的信息将被束之高阁。

很多结构化、非结构化、半结构化数据价值密度极低，大概率是没有找到很好的应用场景。

为此，火山引擎数智平台从数据飞轮2.0建设的角度入手，能将各种类型结构数据统一管理，还包括提供对应的CPU/GPU的计算能力。

同时，他们还提供了多种可选的引擎，比如EMR数据计算和存储引擎，以及实时计算引擎Flink、OLAP处理的ByteHouse等等。

具体选用什么样的引擎，取决于用户的使用行为。

在这个过程中，利用LLM大面积去挖掘先前被忽视的数据价值，为AI模型训练、微调提供高质量数据支持。

要知道，大模型对于数据质量的理解，远远超出了传统的BI时代。

它不仅仅只关注数据的准确性，更在意数据能否模拟人类认知、是否符合人类使用习惯、是否能够反应真实世界。

具体来说，多模态数据湖解决方案具备了六大优势：

开箱即用（进得来）：提供开箱即用的体验，预集成了大数据主流组件工具，并持续迭代升级。开源兼容（出得去）：数据湖组件与开源组件保持100%一致，不Lock in客户，客户无需担忧被锁住。轻量运维（管得住）：提供丰富的运维工具，Web交互化，大大降低运维门槛与投入，释放人力到核心业务中。成本优化（用得省）：通过全托管、弹性伸缩、冷存归档等架构降本手段，结合预约实例等计费特色，不断降本。极致性能（算得快）：优化AI计算引擎/大数据计算引擎的内核、计算链路，对比开源全面实质性提效。AI原生性（做得强）：专为多模态数据设计的新一代数据湖，与AI混合大数据协同发展，兼容大模型业务场景。

而现在，已经有不少客户开始在POC，或者生产环境中采用了，并且在数据管理上取得了卓越的效果。

B是一家去年刚刚成立的人工智能通用应用头部大模型公司，其目标非常明确：为C端市场提供颠覆性AI解决方案。

今年，他们在大模型上下文窗口上，实现了质的飞跃。

他们之所以能够制胜，秘诀在于选择了前沿的产品组合解决方案——E-MapReduce + DataLeap。

这套解决方案，带来了两大核心优势。

一方面实现了卓越的高性能计算，另一方面还具备了前所未有的灵活性。

它采用了领先的分布式计算框架，可根据数据规模线性扩展计算力，确保了计算能力与数据量完美匹配，从而使用维持高效稳定的计算效率，保证海量非结构化数据可以如期交付。

同时，Spark/Ray与EMR分布式缓存Proton完美实现了 TOS 的文件语义对接，有效降低了对象存储的带宽要求，减少了不必要的资源消耗。

不仅如此，用户还可在火山引擎EMR on K8s集群上灵活高效配置数据处理环境，迅速添加EMR Spark/Ray等数据分析引擎。

他们还可以秒级搭建最适合当前任务的分析环境，由此极大提升了数据分析效率和质量。

通过这套方案，他们实现了超30%的降本增效，并在数上实现了极致灵活的管理能力。