AI 时代,数据湖的“拐点”与展望

360影视 欧美动漫 2025-05-30 09:00 2

摘要:导读2022 年随 LLM/AGI 的革命性突破,数据平台迎来了第三次革命,半非结构化数据的处理能力被 #AI 解锁,数据规模再一次触碰 10 倍扩展的潜力。沉淀在数据湖上的 DarkData 如何被“点亮”?又需要哪些数据湖新能力来支持?

导读2022 年随 LLM/AGI 的革命性突破,数据平台迎来了第三次革命,半非结构化数据的处理能力被 #AI 解锁,数据规模再一次触碰 10 倍扩展的潜力。沉淀在数据湖上的 DarkData 如何被“点亮”?又需要哪些数据湖新能力来支持?

本文是 2025Datafun Summit 主题演讲的整理,笔者试从技术架构演进和 AI 新需求两个视角,与参会者探讨#数据湖 领域的过去,现在和未来。

主要内容包括以下几个部分:

1. 数据湖的本质与崛起的驱动力

2. 技术格局演变与标准之争

3. AI 驱动下的数据架构革命

4. 实践创新:云器科技的 AI 驱动数据湖解决方案

5. 结论:数据湖新机遇

6. 问答环节

本章核心观点:

1. 当前主流数据湖包含两个关键系统存储系统Catalog 系统)和三个关键标准文件格式、表格式、Catalog 格式

2. 数据湖技术已经发展到湖仓一体阶段,湖仓一体已经成为事实标准

3. AI 成为数据技术的新驱动力,10 倍半非结构化数据的存储和处理能力成为新发力点

1. 统一与开放:数据湖的定义与范畴

数据湖是一个统一且可扩展的系统,它覆盖数据从采集到输出的全过程,能容纳结构化、半结构化等各类数据。它不依赖特定引擎,保持开放性。Databricks 用"简单、开放、协作"来描述数据湖的特点。

数据湖主要由两个系统组成:存储系统(如 AWS S3 等云存储及开源技术)和 catalog 系统(管理数据定义、结构、来源等元数据)。同时,它基于三个标准:文件格式(Parquet、TF record、CSV、JPEG 等)、表格式(Hudi、Iceberg 等)和元数据服务格式(如 Iceberg 的 RestAPI)。

2. 技术突破与业务变革:数据湖兴起的双轮驱动

数据湖的兴起源于技术和业务的共同推动。在技术方面,20 世纪 70 年代的数据库技术奠定了数据管理基础,2000 年后互联网普及带来的数据爆炸使传统数据库难以应对。谷歌的分布式系统(GFS 存储、MapReduce 计算)成为数据湖技术基础。

数据湖的发展经历了几个阶段:早期凭借海量存储、易扩展和低成本优势兴起,但后来显现性能和实时性问题;近五年进入"湖仓一体"阶段,结合数据湖与数据仓库能力,解决高性能分析和实时性需求;但对AI场景仍有不足(低带宽、结构化数据为主),未来数据湖将进入"AI 阶段"。

在业务方面,企业数字化转型需要整合多源异构数据来深入了解业务、辅助决策。数据湖的大容量存储、易扩展性和多数据类型兼容性,满足了企业统一管理分析原始数据的需求。

02

技术格局演变与标准之争

本章核心观点:

1. 存储系统领域,HDFS 逐渐被淘汰,云对象存储成为主流。新一代对象存储向湖仓(例如 AWS 新发布 S3 Table)和 AI 方向(例如 VestData)发展

2. 表格式领域,Apache Iceberg 赢得最多支持逐步成为事实标准。整个领域快速发展,iceberg V3,parquet V3 都在加速推进中。

3. Catalog 领域仍处于“战国时代”,目前有超过 5 种不同形式的开源 catalog 产品,建议用户短期观望。AI 需求的满足率或成为胜负手

1. 云存储主导:存储系统的转型与升级

存储技术格局已明显改变:HDFS 逐渐退出,云对象存储成为主流,新兴数据平台基本都基于对象存储构建。

对象存储正在向上发展。以 AWS S3 为例,去年推出新特性 GA,引入“table”概念(如 CRS Table),原因是:一是 S3 中结构化数据 Parquet 占比增加,成为内部最大数据格式;二是存在性能优化空间。新“table”有两个特点:支持 Iceberg 标准(未来可能兼容其他标准),全托管设计,自动处理压缩、授权、小文件等问题,提高数倍性能和十倍事务处理效率。

对象存储有两个发展方向:一是作为主要存储底座构建数据库,二是向数据仓库功能拓展,通过一体化设计提升性能。因此,新建数据平台选择对象存储(如云服务)比 HDFS 更好。

2. “战国时代”:元数据系统的变革与竞争

传统 Hive 元数据存储(HMS)已不能满足现代需求,新一代 Catalog 系统处于“战国时代”,缺乏统一标准。HMS 有三个主要问题:只支持结构化数据,功能单一;缺少权限、数据血缘、数据治理等能力,需要外部组件;可能引入整套老旧体系,所以业界都在寻找替代方案。

市场上出现了多个新系统,如开源的 Starburst Loris Database、Catalog,亚马逊 Glue,华人项目 Gravitino 等。这些系统大多是近一年开源的,处于早期竞争阶段,未来可能会出现主导者。新系统需要满足两个条件:兼容 HMS 存量数据,支持新兴 AI 能力。

元数据管理有两种主要思路:

独立服务模式:以 AMS 为代表,通过 API 收集表、系统等元数据存入数据库,用图结构表示数据血缘。提供点查(如表分区、模式)、搜索(上下游表关联)、治理计算(部门数据表统计)等功能,属于组装式架构。Big Meta 模式:谷歌 2021 年在 Big Query 提出,针对大规模元数据管理,将其抽象为类似 Big Table 的结构化存储(如亚马逊 S3 Meta AtTable 将所有对象元数据整合成 Event 表),支持 Iceberg 标准或原生引擎(如 Redshift)直接处理,避免外部组件拼接。

现在大多数开源组件采用独立服务模式,云厂商则倾向 Big Meta(架构更统一,依赖现有引擎)。未来两种思路可能分化:前者满足企业个性化接入需求,后者因一体化优势可能成为主流,也可能长期并存服务不同场景。

3. 标准分化与融合:格式标准的生态博弈

(1)文件格式标准的统一

在文件格式方面,结构化数据领域 Parquet 已成为现在的事实标准,新兴数据大多基于 Parquet 格式存储和处理。

(2)表格式标准的多元竞争

在表格式标准领域,Hudi、Delta Lake、Iceberg 和 Paimon 等开源项目受到广泛关注,各有优势:

在海外市场,Iceberg 认可度较高。2022 年 Databricks 收购相关公司后,Snowflake、AWS 都全面采用其标准。国内开源项目 Paimon 表现突出,与 Flink 深度集成,在流数据处理和流批一体场景中优势明显,能高效整合实时流与批量数据处理。

Hudi 擅长数据更新管理,支持增量数据快速插入、更新、删除,适用于高实时性场景;Delta Lake 强调 ACID 事务特性,保障数据操作的可靠性。

这四个项目都在快速迭代(如 Iceberg 优化查询效率,Paimon 深化 Flink 集成)。随着生态成熟,未来它们可能会融合:企业需要整合多系统优势,社区也在推动互操作性。但融合面临数据格式兼容、接口统一、性能优化等挑战,需要业界共同解决。

(3)Catalog 格式的标准化进程

Catalog 发展比表格类技术更早,目前只在表 API 层面有基础形态。其中,Iceberg 的 Rest API 中表相关接口(Table API)获得大多数社区支持,正成为新一代标准兼容核心,但数据存储状态、数据治理等领域仍无统一规范。现在市场上有近十套不同 Catalog 系统,仍处于技术选型和迭代阶段。

这些标准正向两个方向发展:

①下一代 Parquet V3(早期阶段)

目标:在保持高性能基础上扩展功能,适配 AI 与实时场景主要特性: 随机访问能力:提升 AI 任务数据访问灵活性,适配模型训练等场景智能压缩优化:基于硬件特性定制压缩策略,降低存储与传输成本场景化增强:支持实时更新,增加 AI 友好特性(如结构化/非结构化数据混合处理)

本章核心观点:

1. AI 带来的半非结构化处理能力,会解锁数据湖的 10x 潜力,存储、管理新的多模态数据成为大厂的关键发力点

2. AI Native 成为设计核心,面向 AI 的标准/产品开始挑战当代数据湖技术。例如文件格式领域,新一代 Lance format 开始挑战传统的 Parquet

3. 数据处理从生产到查询的传统范式,向生产到召回演进。计算架构重回搜索时代,但被新一代 AI 引擎加持。

1. 打破数据孤岛:AI 重塑数据类型处理范式

AI 出现前,数据平台基于关系代数处理结构化数据,依赖 SQL、Parquet 等工具进行分析。AI 改变了这一模式,它的核心价值在于突破数据类型限制,使文本、图像、视频等半非结构化数据(以前称为"暗数据")通过 AI 模型得到有效处理。

例如,AI 能从聊天记录中提取关键信息,这类复杂分析远超传统深度学习能力,为企业释放数据价值开辟了新空间。这种变化使原本被孤立的数据类型得以统一处理,企业能从过去难以分析的非结构化数据中提取关键见解。

2. 价值重构:从信息到智慧的数据消费变革

AI 为数据处理带来革命性变化,将传统"一对一"系统升级为"m 对 n"模式。在传统 DIKW 模型中,原始数据经 ETL 生成报表(信息层),部分通过机器学习用于搜推系统(浅层次知识应用),数据利用有限且深度不足。

AI 介入后,半非结构化数据获得计算能力:原始数据输入 AI 引擎可实现知识问答、语义搜索;报表分析支持归因建模,多智能体系统(如 Manus)能基于基础数据完成财务综合分析(知识级应用)。未来数据消费将更依赖 AI 引擎,它整合结构化与半结构化数据的综合分析能力,推动数据价值从信息级向知识、智慧级提升。

3. 融合与创新:数据湖的未来发展方向

数据表达的多元化转型

同一份数据可以有 5 种表达模式:

二维关系(结构化数据,高准确度、可解释性,需 ETL 建模)标量(半结构化,倒排索引,中等表达能力)向量(高维抽象,机器学习专用,可解释性差)点边(图数据库,复杂关联数据)模型(融入模型,低使用门槛,可观测性差)

AI 推动数据向"高准确性+高信息密度+可解释性"发展,目标是整合结构化表与半结构化数据为统一知识库。

系统架构的范式转变

系统架构从"主动查询"转向"召回驱动":

生产端:处理结构化/半结构化数据(ETL/语义处理),引入 AI 引擎存入对应存储(如向量数据库)消费端:支持多表达查询,系统自动召回数据供大模型分析(如财务分析场景整合报表与文本报告),通过评估反馈优化召回排序

大模型应用与搜索引擎架构相似:都需要数据预处理(拆分/索引)、召回匹配(向量/倒排索引)、结果生成,体现 AI 时代数据处理的通用性趋势。

存储与标准体系的革新

AI 催生专用存储系统(如海外 Vast Data、国内开源 GFS 变种),聚焦大模型需求:

支持预训练数据拆分、推理阶段向量 KV 存储,采用高性能架构(Disaggregated、RDMA/MME 硬件),牺牲通用性换取高吞吐代表方案:GFS 提供 Fuse 与原生接口,推荐原生接口实现极致性能

存储标准从单一优化(如 RDBMS 大块扫描、Parquet 快速分析)转向统一适配 AI 需求,新体系(如 LanceDB 向量数据库、开放表格式如 Apache Hudi/Iceberg/Delta Lake)兼顾模型训练、数据检索等多场景。

面向 AI 的数据湖元数据中心重要性大增,需要处理复杂权限(如财报敏感数据)、多模数据分类(图片/视频等非结构化数据),构建难度随数据规模与模式复杂度上升。

04

实践创新:云器科技的 AI 驱动数据湖解决方案

云器科技的 Lakehouse 产品通过统一数据接入、AI 增强的数据处理、多模态知识整合和闭环反馈机制,构建了整套智能数据湖仓平台,现已开放注册。用户可以直接线上开账号试用。(部分高级功能需要联系商务开通)

1. 多元融合:全频数据接入的统一架构

云器 Lakehouse 抽象数据库存储为统一"Volume",按数据类型/权限划分独立空间,实现细粒度授权与隔离。这种设计既保证了安全性,又提供了灵活的数据整合能力,为企业构建全域数据视图奠定基础。

2. 智能流转:AI 驱动的 ETL 范式转变

云器 Lakehouse 将 AI 能力封装到数据流水线,使非结构化数据处理(如增量文档分析)像结构化 ETL 一样便捷,处理后数据自动存入后台库。这种智能流转大大降低了数据处理复杂度,让企业能更高效地从各类数据中提取价值。

3. 知识整合:RAG 增强与统一知识库

云器 Lakehouse 整合了向量索引(处理非结构化数据)、标量索引(文本检索)、表数据(结构化分析),支持多模态数据直接读取,构建统一知识库,满足复杂查询需求。这种融合架构使企业能同时处理结构化报表、非结构化文档和多媒体内容,为全方位业务决策提供支持。

4. 自我进化:闭环反馈与优化机制

云器 Lakehouse 建立了完整的反馈链路,通过用户评估数据召回效果,反向优化排序模块与模型输出,形成"数据处理-应用-迭代"闭环。这种自我进化机制使系统能持续提升数据服务质量,适应不断变化的业务需求。

05

结论:数据湖新机遇

AI 时代为数据湖的发展带来了深刻的变革,数据湖正站在一个关键的"拐点"上。从数据湖的概念、范畴和兴起,到表格系统的发展,再到 AI 和大模型对数据库架构的颠覆性影响,我们可以清晰地看到数据湖在技术和业务驱动下的不断演进。未来,数据湖将朝着更加智能化、融合化的方向发展,更好地满足企业在数字化转型过程中对数据管理和分析的需求。

在这个过程中,企业需要密切关注数据湖技术的发展动态,结合自身业务需求,合理选择和应用相关技术,以充分挖掘数据的价值。同时,业界也需要加强合作,共同推动数据湖生态的完善和发展,解决技术融合、标准统一等问题,为大数据领域的持续创新提供坚实的基础。

06

问答环节

Q1:云器的元数据管理系统是 BigTable 的形式吗?

A1:云器科技的元数据系统正在向 BigTable 模式发展,现在我们有一个基础系统,正在逐步向前推进。通过与大型客户合作,我们发现元数据系统变得越来越大,在实践中发现,元数据不足会使数据分析变得困难,而元数据太多又面临元数据系统本身计算复杂的问题。特别是在百 TB 以上的数据量上,元数据计算可能需要三十秒的时间,而采用 BigTable 方式能很好地解决这一性能问题。

Q2:3FS 这种用于 AI 训练的支持 RDMA 的文件系统,怎么和数据湖整合?

A2:从 3FS 来看,它的目标很明确,现在主要为大模型训练和推理服务,不是一个通用的数据库系统,这也是 Deepseek 能把成本做到很低的主要原因,即专款专用。

从发展趋势看,类似 VestData 的系统最初也是专款专用,只给大模型训练和服务推理用,但最近它推出了“data platform”产品实现了融合设计,同时支持结构化的数据、多样性的硬件和不同的场景等,支持的规模也很大。

我们猜测 AWS 的 S3 可能也会向这个方向发展。从整体架构看,大多数企业可能不需要自建 AI 存储系统,而是等待云对象存储系统发展到这个阶段。这个变化可能在一年内就会发生,那时云存储将有更多的 RDMA 能力、更高的处理能力和更高的带宽,用户还能根据需求选择 SSD 或更经济的存储方案。

以上就是本次分享的内容,谢谢大家。

来源:DataFunTalk

相关推荐