专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路

摘要：在生成式AI的浪潮中，数据的重要性日益凸显。大模型在实际业务场景的落地过程中，必须有海量数据的支撑：经过训练、推理和分析等一系列复杂的数据处理过程，才能最终产生业务价值。事实上，大模型本身就是数据处理后的产物，以数据驱动的决策与创新需要通过更智能的平台解决数据

编辑 | 宋慧

出品 | CSDN（ID：CSDNnews）

在生成式AI的浪潮中，数据的重要性日益凸显。大模型在实际业务场景的落地过程中，必须有海量数据的支撑：经过训练、推理和分析等一系列复杂的数据处理过程，才能最终产生业务价值。事实上，大模型本身就是数据处理后的产物，以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题，这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。

那么，“Data+AI” 对于数据处理究竟意味着什么？从字面意义来理解，Data+AI是指将数据和人工智能结合起来，支持数据从收集、准备到模型开发、部署、迭代、监控的全流程。与传统数据管理模式相比，Data+AI更侧重AI原生化、一体化、多模化等理念。

阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人周文超

从数据工程与业务实践的角度来看，由离线数据处理到实时数据处理，再到今天的Data+AI时代，数据处理的底层逻辑到底发生了怎样的变化？为何多模处理能力变得越来越重要？我们邀请了在学术界和产业界均有丰富经验的周文超博士，他现在是阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人。周文超博士从数据管理平台变化角度出发，结合阿里云DMS+X底层技术构建路径，深入分析Data+AI智能平台构建的现状与未来。他认为，今天的数据处理正在向多模融合方向发展，一站式的多模处理能力将是未来数据管理的标配。

智能升级加速

数据管理平台机遇与挑战并存

生成式AI重塑一切，很多工作的生产效率得到了极大提升，当AI内容生产和代码生成表现出接近甚至赶超人类的能力时，原有的数据管理模式也面临着巨大变革。与过去相比，今天的数据处理在数据量、数据类型、处理深度，以及与AI计算的融合等方面，都发生了显著的变化。这些变化不仅提高了数据处理的效率和准确性，还为AI的创新发展提供了有力的支持。

生成式AI虽然带来了前所未有的机遇，让企业在流程化、个性化服务创新过程中找到新的路径，但也存在着诸多挑战。面对Data+AI融合趋势的数据处理难点，周文超博士概括了三点：第一，数据的多模态化；第二，算力的多元融合；第三，数据处理的实时性。

数据的多模态：数据类型不再局限于传统的结构化数据，而是包括了图片、文档、图、时序、交易等多种模态的数据，比如：IoT设备数据、车机图像数据等，这些多模数据是数据处理和分析的一大挑战。

算力的多元融合：算力也朝着多模态和异构方向发展。过去，无论是在操作系统、数据库、离线数据处理还是实时数据处理中，主要关注的是以CPU为核心的算力。然而，随着大模型的出现，GPU、FPGA、ASIC等硬件逐渐加入到算力矩阵中。特别是GPU，原本用于图形加速和比特币等领域，现在因其能处理更多向量数据，并且可用于矩阵乘法，在算力领域扮演着越来越重要的角色。另外，如何在多样化的算力硬件上合理分配计算任务，以及如何更好地调度和结合不同的异构算力，成为Data+AI领域需要攻克的另一个重要挑战。

数据处理的实时性：实时性也是数据处理领域的一个难点。从最初的离线数据处理，到现今的实时数据处理，我们见证了数据处理走向实时化的过程。过去，数据主要以批次形式处理，一天或一周进行一次分析或训练。后来随着实时分析场景的增加，需要分钟级甚至秒级的数据处理能力，例如：在数据监控平台上，用户希望每秒或每分钟都在更新数据，以便实时了解当前情况。同理，Data+AI也是相同的逻辑。如果几个月才能进行一次训练，那么最近的数据将如何处理？因此，数据管理平台对实时数据的处理，也成为企业必须要面对的一个重要课题。

只有解决了上述问题，Data+AI的落地场景才会变得更加丰富，数据驱动企业智能化升级才会成为可能。

阿里云DMS+X一站式数据管理平台设计原理

准确来讲，Data+AI所有数据处理的背后主要源于三个核心要素，即数据、模型与算法、算力，正是这“三驾马车”成为数据管理智能平台能否提升业务效率的关键。

换言之，真正满足用户需求的Data+AI智能平台具有明显的Data Gravity (数据重力)倾向。如何理解Data Gravity概念？用一句话概括，就是让更多的模型、算法和算力向数据靠近，而不是来回迁移数据。因为，搬数据这件事，成本高昂，不能再像二十年前一样，把不同数据进行聚拢，再进行数据下发。现在，基本都是近存计算、存内计算，计算向存储靠近，向数据偏移。

此种背景下，阿里云瑶池数据库推出的Data+AI一站式多模数据管理平台做出几个重要改变：一、是一体化，打破数据生态和部署域的壁垒；二、让数据价值获取的路径变短。

所谓“一体化”，是指为用户打造一个统一的数据管理与开发平台，以优化数据资产的可见性和利用效率。首先，通过一个集中化的界面，让用户能够清晰地查看所有分散在不同来源（如OLTP数据库、OLAP数据库、云存储及自有IDC等）的数据资产，从而更有效地管理数据并控制存储成本，同时获得全局性的数据概览，这一理念体现在阿里云在DMS+X平台中提出的OneMeta+OneOps概念上。其中，OneMeta实现了数据资产的统一元数据管理，包括数据的来源、表结构等关键信息；而OneOps强调了开发平台的统一性，支持从离线到在线、从OLAP到Spark再到AI等多种数据处理场景。通过OneOps概念，DMS+X整合了数据操作、开发运维以及针对大型语言模型等操作，形成一个统一的操作平台，让用户能够在这个平台上完成所有与数据相关的操作，从数据清洗、编排到调用AI模型，从而缩短数据价值获取的路径，使数据价值的挖掘变得更加简单和高效。

值得一提的是，不同数据生态的打通也是DMS+X一大亮点。众所周知，OLTP数据库和OLAP数据库本身数据存储和处理形式不同，中间免不了要进行复杂的ETL转换。秉承Zero-ETL理念，DMS+X在数据转换通路上做了很多工作，让用户无需通过物理复制就能在无感知状态中将ETL效率提升5-10倍。

与此同时，让数据价值它的获取路径变得短，或者说让用户获取价值更简单，也是DMS+X智能平台提供的一个重要价值。为了将数据适配到AI处理的需求，DMS+X还进行了数据的AI ready化处理，如向量化等，使数据更易于被大型语言模型等AI技术理解和处理。此外，DMS+X还提供了Notebook、任务编排、以及结合百炼等智能开发平台的一系列功能，帮助用户更容易地生成带有业务属性的数据处理流程，进一步提升数据价值的挖掘效率。

从目前应用现状来看，阿里云DMS+X的用户主要是互联网、零售、游戏以及泛娱乐领域，这些领域的企业本身就有核心的数据资产，希望通过数据处理能力的提升拓展AI边界，构建AI原生能力，进而实现数据资产的价值最大化。大体来看，企业智能化升级还处于刚刚起步的阶段，未来随着Data+AI融合速度的加快，其他传统领域也一定会全面跟进。

当然，部署Data+AI融合战略的企业不只阿里云一家。与同类竞品相比，阿里云“Data+AI”驱动的DMS+X一站式多模数据管理平台之所以成为各行各业实现数据价值新底座，是“厚积薄发”的结果。比如：生成式AI强调的三层架构（底层基础设施层、中间模型层以及上层应用），阿里云很早就已提出IaaS+PaaS+MaaS全栈产品矩阵。过去几年，不管是IaaS（计算、存储、网络安全）、PaaS（中间件，数据库，计算平台），还是MaaS（通义系大模型），都已做到业内领先。

具体到数据库，经过十余年的应用实践以及技术迭代，阿里云瑶池拥有业界最全面的数据库产品布局，涵盖云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库Lindorm等多款明星产品，可满足用户不同业务需要。技术方面，瑶池旗下的自研数据库拥有三层解耦、多主多写、HTAP、Serverless等全球首创或业内领先的创新能力。其中，PolarDB已完成全球首个大规模商用、基于共享存储的云原生多主数据库实践，并凭此成功摘得了中国首个ACM SIGMOD和IEEE ICDE的工业赛道“最佳论文奖”。

未来：AI就绪，迎接Gen AI时代

尽管在底层技术平台支撑上，人类已经做好了AI就绪的准备，但距离真正的Gen AI时代到来，还有一段距离。周文超博士总结认为，大模型应用层将在未来占据主导地位，尤其是模型的推理应用，其价值将远超训练过程。在此背景下，阿里云瑶池数据库DMS+X发展规划也会变得更加清晰，将聚焦于支持更宏大的推理场景，通过提升用户体验和性价比来推动技术进步。

具体而言，DMS+X将致力于让用户在使用过程中更加便捷、高效，并通过资源混部、垂直领域数据的存储与计算优化等手段，进一步提升资源使用效率。同时，还会更积极地探索如何更高效地使用CPU、GPU、FPGA等算力资源，以期在未来技术落地中发挥重要作用。这些努力不仅体现了阿里云瑶池数据库对未来技术趋势的深刻洞察，也彰显了企业在推动AI技术发展方面的坚定决心和不懈努力。

而从技术人生的视角来看，以周文超博士为代表的研发团队，正以长期主义心态，将战略愿景转化为实际行动，致力于为用户带来更高效、更便捷的智能数据平台体验，推动着AI技术的持续进步和应用的快速拓展。

受访人简介：

周文超，阿里云数据库产品事业部AnalyticDB PostgreSQL及生态工具部负责人，负责云原生数据仓库、数据库工具与管控的研发以及数据库系统与智能方向科研。专注于建设一体化Data+AI数据管理平台，支持日益丰富的数据计算需求和更趋异构化的底层架构，利用资源云化提升智能计算效能。

清华大学计算机系本科，宾夕法尼亚大学计算机与信息科学博士，国家级领军人才，浙江省顶尖人才。毕业后于美国乔治城大学计算机系任教，后升任终身教授。至今在一流国际学术会议与期刊上发表论文70余篇。主要研究方向是计算机系统的设计和实现，涵盖数据库、分布式系统、计算机网络和系统安全等方向。曾获多项重要奖项，包括美国基金委NSF CAREER Award（杰出教授奖），ACM SIGMOD最佳博士论文奖，以及多个学术会议的最佳论文、最佳系统演示奖等。

来源：CSDN一点号

标签：阿里云文超文超博士

本文地址：https://news.43u.com.cn/a/278742.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!