摘要:当前,GenAI的投资正在加速,IDC和Gartner在报告中称,随着企业在未来十年斥资数千亿美元以获得数万亿的商业回报,GenAI的投资和创新步伐正在加快。Gartner在报告中指出,2025年全球GenAI支出将增长76.4%,达到6440亿美元。
当前,GenAI的投资正在加速,IDC和Gartner在报告中称,随着企业在未来十年斥资数千亿美元以获得数万亿的商业回报,GenAI的投资和创新步伐正在加快。Gartner在报告中指出,2025年全球GenAI支出将增长76.4%,达到6440亿美元。
AI正在引发一场产业重构与升级,企业也希望借助AI新引擎重构竞争力实现腾飞。随着AI深入产业,数据AI-Ready变得越来越重要,数据正在成为AI时代的胜负手。
拥抱AIⅹData时代
星环科技创始人&CEO孙元浩认为,生成式AI演进会经历四个阶段:
内容生成(Step 0),是AI生成Data,例如,文生文、文生图、文生视频等。
自然语言与知识库的简单交互(Step 1),是AI+Data,需要把数据和AI解耦合,将企业的私有数据放到外部知识库中,AI以交互方式去访问这些专有数据。
AI成为共事者、重构应用的乘法阶段(Step 2),是AI x Data,AI与数据处理、数据治理、数据分析的深度融合与相互赋能。
最终迈向多AI Agent协同的Agentic AI指数时代(Step 3),AI与Data的融合指数级跃迁,AI能帮助完成大量的工作。
我们现在处于AI x Data时代,其特征是,AI不仅直接访问整理好的数据,也可以把AI前置到数据加工的全链路流程中,将数据的采集、清洗、治理到最后数据分析的全流程全面AI化,AI与数据的深度融合将创造更大的价值。
如今,Scaling Law的发展正在放缓,随着很多优秀开源大模型出现,模型已经不再是企业AI落地的瓶颈,高质量的私有数据成为了AI时代的核心竞争力。Gartner报告也指出,模型的差异不再是AI落地成败的主要影响因素,其他企业难以获得的独特企业内部数据将成为AI竞争差异的关键。
从卷模型到卷数据,企业想要AI引擎转起来就要炼好数据油料。
与消费级AI的“高容错、通用化”不同,企业级AI需要专精、懂业务,并提供精准、可靠的信息和决策支持,确保业务流程的稳定性和高效性。所以企业级AI应用需要引入企业私有数据,把海量的数据(结构化、半结构化、非结构化数据)变成语料供应给AI去使用,训练企业专有大模型或者通过外挂知识库让AI懂业务,在安全合规方面也有更高的要求。
当前,在AI x Data时代,企业在应用AI时主要面临以下挑战:
数据资产没有沉淀,数据割裂地分散在不同业务系统中,数据孤岛严重,没有为AI准备好语料,AI知识工程的建设面临挑战。
数据存储,存储模型单一,无法统一存储,不能很好地管理结构化、非结构化、半结构化数据,数据时延高,无法实时获得洞察。
数据质量,数据杂乱、质量差,没有好的数据质量,AI准确率无法满足生产需要,毕竟Garbage in garbage out。
数据安全,权限管控和安全合规问题突出,此外,企业私有数据与模型需要解耦,以免数据泄露。
应用问题,企业对AI应用有旺盛的需求,但是单点建设成本太高。AI应用需要高敏捷建设,而且如何与原有系统安全、高效对接也面临挑战。
为了解决以上挑战,企业需要重新构建新一代AI基础设施(AI Infra)。5月27日,星环科技主办“AI × Data:新一代 AI Infra”2025年度产品发布会,发布新一代AI基础设施(AI Infra),帮助企业快速AI-Ready,夯实数据根基,让AI引擎运转起来全面释放数据价值。
什么样的AI Infra能让AI引擎转起来?
星环科技新一代AI Infra采用分层设计,包含四大核心平台:Knowledge Platform(知识平台)、AI Platform(AI平台)、AI-Ready DATA Platform(AI 就绪数据平台)和Resources Platform(资源平台)。
据悉,这四层架构不是简单叠加,而是深度融合、相互赋能,形成了一个完整的AI基础设施生态。从底层的异构算力资源管理调度,到多模数据统一存储管理,再到语料加工知识库构建,以及主流模型运营纳管和模型训练、推理、AI Agent开发等,助力企业实现从数据到知识、从模型到应用的全链路智能化转型。
至此,星环科技完成了从Data Infra向AI Infra的智能化升级,“今天我们把星环科技的所有的产品纳入了AI Infra当中,也就意味着星环科技从今天开始是一个AI基础软件设施公司,我们所有的产品都是AI Infra的一部分。”孙元浩说。
实际上,全球各大Data Infra都进行智能化升级因应AI x Data时代的变革,比如云数仓公司Snowflake通过收并购整合打造AI数据云(AI Data Cloud),日前,Snowflake刚以80亿美元收购了Informatica,强化数据管理能力,Databricks也通过收并购整合打造Data+AI蓝图,推出数据智能平台(Data Intelligence Platform),帮助企业简化并加速实现Data和AI目标,5月中旬,Databricks收购了数据库创业公司Neon,夯实数据底座能力。在AIⅹData时代,随着AI应用深入,企业对数据基础能力有了更为旺盛的需求。Snowflake、Databricks、星环科技等数据基础设施供应商顺势而为,抓住时代机遇。
而本次星环科技推出的Al-Ready Data Platform是AI Infra的核心,提供了更为全面的AI × Data能力,帮助企业解决AI无高质量数据可用的难题。根据官方介绍:Al-Ready Data Platform是一个AI赋能的数据平台,为AI生产和提供高质量数据。该数据平台以关系型、向量、图、全文时序等多模型数据统一存储管理为基础,提供多模态数据自动处理、高效数据治理、特定领域知识构建以及全流程的实时数据洞察能力,实现从数据产生到应用于AI的全过程数据管理,一站式助力企业更高效地运用AI释放数据价值。
具体来看,AI-Ready Data Platform基于多模统一架构,从统一接口、统一计算引擎、统一存储到统一资源管理,形成了完整的技术体系,拥有五大核心能力:
1.AI-Ready Data多模型数据:支持向量、图、文档、全文索引、关系型表等多种数据模型,为AI应用提供丰富的数据基础。
2.非结构化数据处理:能够将非结构化数据转化为半结构化、结构化数据,解决企业80%以上的非结构化数据难以利用的问题,让数据为AI所用。
3.数据治理:提供高效数据治理能力,特别是AI赋能的数据治理能力,能够产生高质量的数据,确保数据的准确性、一致性和可用性。
4.特定领域知识:将数据模型转化为知识,提取和沉淀领域知识,为AI应用提供知识基础。
5.全流程实时数据洞察:要让AI能够发挥价值,需要实时访问最新的数据,该平台支持实时接入、实时处理、实时分析,满足企业对数据时效性的高要求。
孙元浩指出,数据平台的AI-Ready意味着星环科技能够为AI应用提供一个高质量数据平台,同时该数据平台也被AI赋能,能够实现智能化数据处理。AI-Ready Data Platform已经可以打包成MCP Server,可以让外部应用和工具进行访问和检索,加速迈向Agentic AI时代。此外,平台全系统采用国密加密,保障数据安全的基础上提供高性能。
湖仓集一体架构实现全流程实时数据洞察
过去十年,数据管理架构经历了数仓、数据湖到湖仓一体的架构升级,但是湖仓一体架构在处理海量数据的灵活查询方面性能不够,延时较长,目前,开源的数据管理方案还停留在湖仓一体+集市阶段,比如开源的Iceberg、Hudi仍然不能实现完整的数仓能力,往往还需要一个独立的数据库系统来构建数据集市。但是构建多套系统不仅引入架构复杂性,还会带来较高的成本以及增大延时。
一般使用传统数仓或者使用Icebreg数据湖加MPP数据库的方案,端到端的数据处理延时能达到小时级别,即使使用了高性能的数据集市,从数据进湖、进仓、再到集市,整体的延时都要接近小时或者小时以上。
随着AI大模型的迅猛发展,企业也需要获得实时数据洞察,对多模态数据的训练和检索需求日益增长,并对分散数据的统一存储和管理提出了更高的要求。传统数据处理方式已难以满足AI x Data时代的实时数据处理需求,亟需一种更加灵活、高效的数据管理方案。
2022年,星环科技推出了业内首个湖仓集一体架构,打造湖仓集一体数据平台。今天发布的Al-Ready Data Platform便是以最新版的Transwarp Data Hub 9.5为底座,TDH支持准实时的数据写入和数据分析、查询,时延控制在分钟级别,配合新版本的ArgoDB进一步实现秒级数据分析。
TDH实现了湖仓集一体化,提供了优秀的数据处理性能,在100 TB TPC-DS基准测试上面TDH比Databricks最 先进的SQL引擎快一倍左右,而所用的硬件成本降低了一半,整体上比Databricks实现了4倍的性价比提升,在1TB TPC-DS基准测试上面TDH也比Databricks最快的SQL引擎快2到4倍。
为了帮助还在使用开源软件或者是CDH商业软件的企业迁移到星环湖仓集一体化平台,星环科技提供了CDH迁移到TDH、CDH与TDH共存、CDH原地升级至TDH三种方案,其中将CDH迁移到TDH,性能可以实现10倍提升,但是需要额外的存储节点,可能需要数周或者数月的时间完成迁移,后面两种方案数小时即可完成,用户可以根据自己的需求、现状,选择合适的升级方案。如今星环科技已经帮助数百个企业构建了湖仓集统一数据平台。
比如,某金融机构原来使用商业CDH以及HBase、Hive、Clickhouse等多个开源产品实现多业务场景,造成数据冗余、处理链路长、时效性差等问题,通过迁移至星环科技实时湖仓集一体平台,实现降本增效,获得实时数据洞察。比如,在传统数据应用方面,几十PB级数据的批处理性能提升了1倍,大屏驾驶舱的交互式数据分析性能提升了10倍;在实时风控场景,延时降到了秒级;在线业务的并发度单个服务器节点也达到了2000 QPS;同时整体的存储成本降低了6倍。
AI-Ready Data Platform的湖仓集一体平台打好了实时数据处理的坚实底座,再通过数据治理工具将原来不准确的数据变成高质量的数据,通过知识工程工具将高质量的非结构化数据转化为知识,通过构建领域知识库将一些专家经验和行业知识沉淀下来给到AI使用,极大提升AI的实时洞察能力和准确度。
据悉,通过星环科技数据能力很多都被打包成AI Agent工具,实现智能化升级。比如其数据治理AI Agent可以依据国家标准、行业标准、企业内部数据规范等对数据进行自动检查与清洗,替代费时费力的人工,非常高效地提升企业数据质量。
小结:AI-Ready让数据为AI准备、AI为数据赋能
无数可用或者无高质量数据可用成为企业应用AI的突出挑战,这也是AI x Data时代大家更为关注AI数据基础设施建设的原因所在,星环科技推出新一代AI Infra以及AI就绪的数据平台恰逢其时。
在AI × Data时代的浪潮中,企业AI引擎的运转已从 “模型竞赛” 转向 “数据决胜”,当开源大模型打破技术壁垒,高质量私有数据成为重构产业竞争力的核心燃料。星环科技新一代AI Infra的推出,不仅为企业提供了从数据采集、治理到知识构建的全链路智能化方案,更揭示了一个行业真理:唯有将AI深度融入数据全生命周期,实现“数据为AI准备、AI为数据赋能” 的双向驱动,才能打破数据孤岛、激活沉默资产,让AI真正发挥业务增长的 “乘法效应”。
来源:IT168企业级