长跑继续，AI时代OceanBase不“追风”

摘要：5月17日，在OceanBase第三届开发者大会上，AI应用PowerRAG正式发布，该产品提供开箱即用的RAG应用开发能力。早前，OceanBase CEO杨冰发布全员信，宣布OceanBase将全面进入AI时代，打造DATA×AI核心能力，建设AI时代的数

原生分布式数据库OceanBase，正式发布首款面向AI的产品。

5月17日，在OceanBase第三届开发者大会上，AI应用PowerRAG正式发布，该产品提供开箱即用的RAG应用开发能力。早前，OceanBase CEO杨冰发布全员信，宣布OceanBase将全面进入AI时代，打造DATA×AI核心能力，建设AI时代的数据底座。

PowerRAG的发布，可视为OceanBase面向AI时代的探索之一。对于为何首先发布PowerRAG产品，作为AI战略一号位的CTO杨传辉在会后接受采访时表示，OceanBase第一步是要先解决能用的问题。

“通过RAG的方式去提升准确率，把自己收缩在能用的范畴，我们把能用这件事情解决好了之后，再把它变成可用到好用。”杨传辉阐述道，准确率是能用的问题，成本是可用，安全性则是好用，“安全往往是更高级的需求。”

除此之外，OceanBase宣布再次升级一体化架构，并发布了业内首款深度集成对象存储与TP数据库的“共享存储”产品。当日，蚂蚁集团CTO何征宇也来到活动现场，表示蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破。同时继续支持OceanBase开源开放，把在Data×AI上的能力逐渐开放给行业，为AGI的梦想添砖加瓦。

回顾OceanBase的发展轨迹，从2010年蚂蚁内部的技术探索，到2020年开启独立商业化运作，再到今天面向AI的积极探索，OceanBase的每一步都如杨冰所说，在业务驱动下，脚踏实地抓住新机遇。

AI和数据关系更密切

OpenAI前首席科学家Ilya Sutskever在 NeurIPS 2024上，曾发出“我们所知的预训练即将终结”的警告，主要依据是高质量数据不够用了。

而硬币的另一面则是，随着生成式AI的快速发展，新生成的碎片化数据在水涨船高，IDC报告指出，预计2028年全球新生成数据量规模将达到393.9ZB，其中企业数据规模和增速尤为凸显。于企业而言，数据仓库的容量已实现质的飞跃，结构化数据存储规模“突破PB级迈向EB级”成为新常态，这给数据存储、管理与分析带来严峻挑战。

另外，何征宇在分享中指出，海量的互联网数据成就了今天的大模型，但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限，且依旧有很大挑战：一是数据的获取成本显著增加，二是严谨的行业数据稀缺且流动困难，三是多模态数据需要更强的处理能力，四是数据的质量评估难。

“无法数字化，就无法智能化。大模型幻觉的本质是缺数据，提供更好数据是解决幻觉的源头。”何征宇称OceanBase因自研海量交易数据库的创新理想而生，坚信其将为实现AGI梦想继续绽放，“未来所有的数据公司都将成为AI公司。”

AI时代带来了新的数据难题，已是行业共识，而同样清晰的是，AI和数据之间的关系变得更为密切。这也是OceanBase把打造AI时代的数据底座战略，提到一个新高度的重要原因。4月底，杨冰发布全员信，宣布OceanBase将全面进入AI时代，打造“DATA×AI”核心能力，建设AI时代的数据底座。

“一体化数据底座其实是OceanBase一体化数据库基础上的延伸，它的核心在于能不能做好数据处理。”杨传辉表示，“我们不是要做一个新东西、去追一个热点，而是沿着一体化AI、无结构化数据方向做的，只不过伴随着DeepSeek的爆火，这件事的优先级提高了。”

而之所以提数据底座，他称是因为外界提到数据库，很容易会联想到这是做交易或者做分析的数据库产品，偏单一功能。而“数据底座”是希望通过一体化的产品、一体化的引擎，同时处理OLTP、OLAP以及AI的混合负载。

“大家可以把OceanBase DATA X AI的打法，想象成一个生态的打法。”杨传辉称希望OceanBase成为AI时代的MySQL，未来计划更加开放的开源。

四大方向出现阶段性成果

从一体化数据库向一体化数据底座（Data×AI）的演进的战略，是今年杨冰4月底对外公布的，不过杨冰透露在去年年底的时候，这个想法基本成形，并总结了OceanBase正在推进的四个大方向：

一是成为“知识底座”。企业要更好地往智能化发展，必须有一个更加了解、贴合企业、知道企业内部运行数据和领域知识的一个内部的知识库。OceanBase要做包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。

二是打破“数据次元壁”。AI的助力下，数据挖掘变得更加深刻，不同形式、不同来源的多模态数据五花八门，这些必须存储在最适合它们的数据结构里面，往往需要做标量数据和向量数据的融合。为此，在数据存储的检索层、查询引擎上需要更多突破。

三是当AI的“靠谱参谋”。如何确保推理的过程当中，能够更加实时、精准地获取到数据，需要整套推理的平台和推理引擎和数据存储引擎去做深度的融合。

四是做流量的“冲浪高手”。遇到像双11这样的波峰和波谷，如何更好地弹性使用，这是OceanBase的强项。结合云的虚拟化能力以及OceanBase分布式能力，深度适配这些训练以及推理的场景，可以最大化地挖掘数据价值的同时获得最大的性价比。

在现场，OceanBase展示了5个多月以来，取得的一些阶段性成果。基于基准测试工具VectorDBBench，采用Performamce768D1M测试数据集，OceanBase与业内三款领先的开源向量数据库进行性能跑分测试。结果显示，OceanBase的向量性能已经达到开源向量数据库业内的领先水平。

面对AI时代的海量数据，OceanBase引入BQ量化算法（HNSW+BQ），大幅降低向量场景的内存需求；引入针对JSON半结构化数据的压缩能力，降低AI场景中的半结构化数据存储成本。根据测试结果，在同等召回率与性能的情况下，引入BQ量化算法能够实现内存成本较引入前降低 95%，而在TPC-H 10G数据集上，OceanBase的JSON压缩比可达MongoDB的3倍。

针对数据检索，OceanBase首次发布面向AI的应用产品PowerRAG，打造AI驱动的开箱即用的RAG服务。杨传辉介绍，传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等，但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。

OceanBase PowerRAG提供开箱即用的RAG应用开发能力，打通应用开发数据层、平台层、接口层与应用层的全流程，提供Document（文档）和 Chat（对话）两个核心API接口，帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。

目前，OceanBase已经兼容了国内外主流的云平台，而在开发者大会上，宣布增加对百度智能云的支持。为了解决无共享架构在弹性和成本方面的瓶颈问题，OceanBase推出“共享存储”产品，将计算与存储解耦。

通过这种方式，OceanBase大幅提升了云上数据存储的弹性扩展能力。同时，在TP负载下，存储成本最高降低50%；在AP负载下，存储成本最高可降低为原来的1/10。谈及价格杨冰坦然地说，“性价比是数据库领域永恒的话题，OceanBase在迭代当中，始终坚持提升性能，并推动技术创新，从而降低成本。”

OceanBase的“长跑”

OceanBase于2010年诞生于阿里内部，起初的应用场景比较窄，仅限于淘宝的收藏夹功能。不久后，它开始在双11、春节红包等“金融+互联网”场景中崭露头角。在团队的不懈努力下，OceanBase在2017年全面应用于支付宝的核心系统。

随后OceanBase不断扩大自己的“朋友圈”，2020年开始，正式踏上商业化发展道路。去年3月，蚂蚁集团宣布OceanBase已成立董事会，开始独立运营。技术层面，OceanBase已成为国产数据库领域的领跑者之一。根据IDC发布的《中国分布式关系型数据库2023年厂商评估》报告，OceanBase位列“领导者”类别，产品能力第一。

开源方面，自2021年6月1日正式开源以来，OceanBase已经成长为最流行的中国开源数据库之一。据杨传辉介绍，OceanBase 的社区用户下载量已经突破了百万量级，并且集群的部署数量也已超过 5万，年环比增长超过400%。

商业化上，OceanBase向市场展现出了不凡实力：超过1200家生态伙伴，其中超100家核心经销商贡献60%外部业绩；超300家行业解决方案伙伴，推出750多个联合解决方案；20多家技术服务生态伙伴，开放自身90%的技术服务能力，伙伴服务收入占比50%，其中30%项目由伙伴独立交付；超10家专有云伙伴营收破千万，超10家公有云营收破百万。

“上云的一个巨大机会点，在于云的增量来自大量线下传统企业上云，而这也意味着我们有更多的机会能够跟伙伴一起，灵活地渗透到各个场景中，并将场景带上云。”此前杨冰说道。

IDC报告指出，云数据库的市场同样发展迅速，整个增长将从2024年的200多亿发展到2028年的500多亿，到了2028年整个云数据库占整个关系型数据库占比的七成，意味着未来几年，公有云的发展空间更大。

此外，在公有云市场行业头部集中率非常高，TOP5的行业营收占了整个营收接近80%，集中在大零售、互联网、智能制造、物流等等，这些行业数据量都特别大，更大的增长的趋势，对于OceanBase这样的分布式数据库来说，也是一个巨大的机会。

AI风起云涌时，OceanBase没有去做追风者，加入“百模大战”，按照杨传辉的说法，这也不是未来OceanBase的方向。“OB不管怎么去讲DATA X AI，首先还是一家做数据处理的公司，相当于做DATA，用AI，专注要做DATA与AI的融合。”

从目前发布的产品来看，OceanBase致力于打造的是性价比、质价比双高的数据底座。“我们感受到一种强烈的it's time to change的这种感觉，我们需要更多的new design。”杨冰称这种感觉就像是十年之前，决定从0-1从而去写分布式数据库一样，现在有强烈的被召唤的使命感。

15年的长跑中，OceanBase一直在“高楼大厦”中构架底层的基础设施，这是OceanBase擅长的，也是他们坚定的方向。在通往AGI的道路上，OceanBase或许还是个新人，但是未来可期。

来源：财经网科技

标签： rag 长跑 oceanbase 杨冰何征

本文地址：https://news.43u.com.cn/a/1696164.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐