摘要:5月17日,在OceanBase第三届开发者大会上,AI应用PowerRAG正式发布,该产品提供开箱即用的RAG应用开发能力。早前,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造DATA×AI核心能力,建设AI时代的数
原生分布式数据库OceanBase,正式发布首款面向AI的产品。
5月17日,在OceanBase第三届开发者大会上,AI应用PowerRAG正式发布,该产品提供开箱即用的RAG应用开发能力。早前,OceanBase CEO杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造DATA×AI核心能力,建设AI时代的数据底座。
PowerRAG的发布,可视为OceanBase面向AI时代的探索之一。对于为何首先发布PowerRAG产品,作为AI战略一号位的CTO杨传辉在会后接受采访时表示,OceanBase第一步是要先解决能用的问题。
“通过RAG的方式去提升准确率,把自己收缩在能用的范畴,我们把能用这件事情解决好了之后,再把它变成可用到好用。”杨传辉阐述道,准确率是能用的问题,成本是可用,安全性则是好用,“安全往往是更高级的需求。”
除此之外,OceanBase宣布再次升级一体化架构,并发布了业内首款深度集成对象存储与TP数据库的“共享存储”产品。当日,蚂蚁集团CTO何征宇也来到活动现场,表示蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破。同时继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。
回顾OceanBase的发展轨迹,从2010年蚂蚁内部的技术探索,到2020年开启独立商业化运作,再到今天面向AI的积极探索,OceanBase的每一步都如杨冰所说,在业务驱动下,脚踏实地抓住新机遇。
AI和数据关系更密切
OpenAI前首席科学家Ilya Sutskever在 NeurIPS 2024上,曾发出“我们所知的预训练即将终结”的警告,主要依据是高质量数据不够用了。
而硬币的另一面则是,随着生成式AI的快速发展,新生成的碎片化数据在水涨船高,IDC报告指出,预计2028年全球新生成数据量规模将达到393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。
另外,何征宇在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有很大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。
“无法数字化,就无法智能化。大模型幻觉的本质是缺数据,提供更好数据是解决幻觉的源头。”何征宇称OceanBase因自研海量交易数据库的创新理想而生,坚信其将为实现AGI梦想继续绽放,“未来所有的数据公司都将成为AI公司。”
AI时代带来了新的数据难题,已是行业共识,而同样清晰的是,AI和数据之间的关系变得更为密切。这也是OceanBase把打造AI时代的数据底座战略,提到一个新高度的重要原因。4月底,杨冰发布全员信,宣布OceanBase将全面进入AI时代,打造“DATA×AI”核心能力,建设AI时代的数据底座。
“一体化数据底座其实是OceanBase一体化数据库基础上的延伸,它的核心在于能不能做好数据处理。”杨传辉表示,“我们不是要做一个新东西、去追一个热点,而是沿着一体化AI、无结构化数据方向做的,只不过伴随着DeepSeek的爆火,这件事的优先级提高了。”
而之所以提数据底座,他称是因为外界提到数据库,很容易会联想到这是做交易或者做分析的数据库产品,偏单一功能。而“数据底座”是希望通过一体化的产品、一体化的引擎,同时处理OLTP、OLAP以及AI的混合负载。
“大家可以把OceanBase DATA X AI的打法,想象成一个生态的打法。”杨传辉称希望OceanBase成为AI时代的MySQL,未来计划更加开放的开源。
四大方向出现阶段性成果
从一体化数据库向一体化数据底座(Data×AI)的演进的战略,是今年杨冰4月底对外公布的,不过杨冰透露在去年年底的时候,这个想法基本成形,并总结了OceanBase正在推进的四个大方向:
一是成为“知识底座”。企业要更好地往智能化发展,必须有一个更加了解、贴合企业、知道企业内部运行数据和领域知识的一个内部的知识库。OceanBase要做包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。
二是打破“数据次元壁”。AI的助力下,数据挖掘变得更加深刻,不同形式、不同来源的多模态数据五花八门,这些必须存储在最适合它们的数据结构里面,往往需要做标量数据和向量数据的融合。为此,在数据存储的检索层、查询引擎上需要更多突破。
三是当AI的“靠谱参谋”。如何确保推理的过程当中,能够更加实时、精准地获取到数据,需要整套推理的平台和推理引擎和数据存储引擎去做深度的融合。
四是做流量的“冲浪高手”。遇到像双11这样的波峰和波谷,如何更好地弹性使用,这是OceanBase的强项。结合云的虚拟化能力以及OceanBase分布式能力,深度适配这些训练以及推理的场景,可以最大化地挖掘数据价值的同时获得最大的性价比。
在现场,OceanBase展示了5个多月以来,取得的一些阶段性成果。基于基准测试工具VectorDBBench,采用Performamce768D1M测试数据集,OceanBase与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase的向量性能已经达到开源向量数据库业内的领先水平。
面对AI时代的海量数据,OceanBase引入BQ量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对JSON半结构化数据的压缩能力,降低AI场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入BQ量化算法能够实现内存成本较引入前降低 95%,而在TPC-H 10G数据集上,OceanBase的JSON压缩比可达MongoDB的3倍。
针对数据检索,OceanBase首次发布面向AI的应用产品PowerRAG,打造AI驱动的开箱即用的RAG服务。杨传辉介绍,传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。
OceanBase PowerRAG提供开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。
目前,OceanBase已经兼容了国内外主流的云平台,而在开发者大会上,宣布增加对百度智能云的支持。为了解决无共享架构在弹性和成本方面的瓶颈问题,OceanBase推出“共享存储”产品,将计算与存储解耦。
通过这种方式,OceanBase大幅提升了云上数据存储的弹性扩展能力。同时,在TP负载下,存储成本最高降低50%;在AP负载下,存储成本最高可降低为原来的1/10。谈及价格杨冰坦然地说,“性价比是数据库领域永恒的话题,OceanBase在迭代当中,始终坚持提升性能,并推动技术创新,从而降低成本。”
OceanBase的“长跑”
OceanBase于2010年诞生于阿里内部,起初的应用场景比较窄,仅限于淘宝的收藏夹功能。不久后,它开始在双11、春节红包等“金融+互联网”场景中崭露头角。在团队的不懈努力下,OceanBase在2017年全面应用于支付宝的核心系统。
随后OceanBase不断扩大自己的“朋友圈”,2020年开始,正式踏上商业化发展道路。去年3月,蚂蚁集团宣布OceanBase已成立董事会,开始独立运营。技术层面,OceanBase已成为国产数据库领域的领跑者之一。根据IDC发布的《中国分布式关系型数据库2023年厂商评估》报告,OceanBase位列“领导者”类别,产品能力第一。
开源方面,自2021年6月1日正式开源以来,OceanBase已经成长为最流行的中国开源数据库之一。据杨传辉介绍,OceanBase 的社区用户下载量已经突破了百万量级,并且集群的部署数量也已超过 5万,年环比增长超过400%。
商业化上,OceanBase向市场展现出了不凡实力:超过1200家生态伙伴,其中超100家核心经销商贡献60%外部业绩;超300家行业解决方案伙伴,推出750多个联合解决方案;20多家技术服务生态伙伴,开放自身90%的技术服务能力,伙伴服务收入占比50%,其中30%项目由伙伴独立交付;超10家专有云伙伴营收破千万,超10家公有云营收破百万。
“上云的一个巨大机会点,在于云的增量来自大量线下传统企业上云,而这也意味着我们有更多的机会能够跟伙伴一起,灵活地渗透到各个场景中,并将场景带上云。”此前杨冰说道。
IDC报告指出,云数据库的市场同样发展迅速,整个增长将从2024年的200多亿发展到2028年的500多亿,到了2028年整个云数据库占整个关系型数据库占比的七成,意味着未来几年,公有云的发展空间更大。
此外,在公有云市场行业头部集中率非常高,TOP5的行业营收占了整个营收接近80%,集中在大零售、互联网、智能制造、物流等等,这些行业数据量都特别大,更大的增长的趋势,对于OceanBase这样的分布式数据库来说,也是一个巨大的机会。
AI风起云涌时,OceanBase没有去做追风者,加入“百模大战”,按照杨传辉的说法,这也不是未来OceanBase的方向。“OB不管怎么去讲DATA X AI,首先还是一家做数据处理的公司,相当于做DATA,用AI,专注要做DATA与AI的融合。”
从目前发布的产品来看,OceanBase致力于打造的是性价比、质价比双高的数据底座。“我们感受到一种强烈的it's time to change的这种感觉,我们需要更多的new design。”杨冰称这种感觉就像是十年之前,决定从0-1从而去写分布式数据库一样,现在有强烈的被召唤的使命感。
15年的长跑中,OceanBase一直在“高楼大厦”中构架底层的基础设施,这是OceanBase擅长的,也是他们坚定的方向。在通往AGI的道路上,OceanBase或许还是个新人,但是未来可期。
来源:财经网科技