摘要:犹记得 2025 年开工第一天,办公室的问候变得非同寻常: “部署 DeepSeek了么?” 取代 “过年好”成了IT人的新暗号。朋友圈更是热闹:乙方熬夜改标书加 AI 方案,甲方紧急调整战略规划加入AI的重点工作,就连做报表的同事都在被要求加入AI能力自动做
作者介绍
@子曰
毕业于北京大学信管系;
13年数据分析与数据治理经验;先后服务于互联网大厂、央企总部、头部科技公司等,数据团队负责人。“数据人创作者联盟”成员。
开篇
犹记得 2025 年开工第一天,办公室的问候变得非同寻常: “部署 DeepSeek了么?” 取代 “过年好”成了IT人的新暗号。朋友圈更是热闹:乙方熬夜改标书加 AI 方案,甲方紧急调整战略规划加入AI的重点工作,就连做报表的同事都在被要求加入AI能力自动做解读报表……仿佛不搭上 AI 这班车,就要被淘汰。
几个月后的今天,现实却让人犯愁。大模型技术天天更新,企业落地却步步艰难。领导期待的 “1 个月部署、3 个月见效” 成了奢望,场景难找、痛点模糊、大模型幻觉短期难以克服,落地现场 “一地鸡毛”。AI 真的就等于大模型吗?数据基建的短板该怎么补?作为身处浪潮中的IT人,又该如何破局?
带着这些问题,我们不妨回归企业做数字化的本质。
《系统性数字化》一书中,提到数字化的本质三要素是数据、连接与算法,其中数据是根,连接是脉,算法是魂。我们企业内部,今年的数字化转型重点,也强调从系统建设为主,逐渐转变为系统+数据和AI应用的结合……其实这都指向了一个要点组合,那就是DATA+AI。我相信从长期看,这将是各个企业数字化转型的趋势和发力点。
在接下来的内容中,我将结合自己十几年的数据实战经验,从三个维度展开解读:为何 DATA+AI 如此关键?DATA+AI 究竟是什么,二者之间又有着怎样千丝万缕的联系?以及,企业该如何步步为营,实现基于 DATA+AI 的数智转型并让价值落地。这些思考或许不够全面,但希望能为大家提供新的视角。期待与各位数据同行深入探讨交流,共同探索 DATA+AI 驱动企业数智转型的更多可能。
为什么
首先,我们看下为什么要重视DATA+AI。
这就要触及企业数字化转型的本质。我们公司为客户做数字化解决方案也好,我们数字化部门为我们集团企业和各个业务线提供数字化赋能也好,都是为了什么?不是为了数字化而数字化,不是为了响应国家号召做数字化,也不是为了数字经济的宏大叙事,我们做数字化的出发点是非常务实的,都是指向为了企业更好的经营运营。
什么是更好的经营运营?多快好省稳:多,把收入搞上来,多多挣钱,真正盈利;快,把效率提起来,用更快的时间获取更大的产出;好,质量提升,产品质量服务质量等等;省,成本降下来,提升ROI;稳:少出事故,风险少少的。想要五个字落地的底层的逻辑是什么,是企业经营运营管理能力的提升,提升的手段是什么?是精细化智能化。精细化智能化的抓手是什么?目前来看,核心是DATA+AI。
这些大道理大家可能都是知道的,让我们看看目前具体场景上都有哪些落地。就举几个我们数据部门主导的例子吧,还是非常直观的。
先说个数据驱动科学决策的场景。借助数据+AI的能力,决策将变得更加科学。大家可能觉得决策距离我们很远,都是公司一把手或者是部门老大的工作,其实我们日常每天都在做决策。但是通常,组织变大了,业务复杂度高了,决策会变得异常复杂,不仅需要输入的信息量大,而且决策结果通常会牵一发而动全身。比如传统经分会决策大家知道是怎么做的么?一月一报一月一会。具体怎么开?会前,各个部门收集数据和结论,整理成PPT;会上各部门老大念报告,说问题,然后决策层讨论,决定怎么改进,会后执行落地;然后下个月再看下动作执行的变化,形成月度的PDCA。但通常会出现什么情况?一是会前报告收集非常麻烦,一个材料制作就要耗费20人天;二是会上场面容易失控,比如对于收入为什么下降了,大家会给出各种各样的说法,如果想打开细节看下问题,不好意思,ppt是写死的,没有办法看,这个问题没有解决变成了待办,等到下个月解决吧。所以经分会经常出现就是数据晾晒,但基于客观数据形成共识很难,至于下个月,关注的核心指标是否改善?因为没有便捷的对比工具,很可能被遗忘掉,然后就这样循环下去,决策变得不那么“科学”。更有甚者,财务的数据和业务的数据对不上,产线和客群的数据对不上,别说决策了,真相还原都是问题,会议变成看数据口径扯皮会。
但去年我们搞了“经营分析线上化”+移动经营日报”,这个事情就有了质的改变。比如去年下半年的集团经分会,都是对着咱们的决策系统进行检视的:数据是最新的、口径是统一的、规则是透明的,没有任何人为修饰的空间,会上有一次老大们想看某个业务线为什么目标没达成?直接当场下钻找到费用超预算项目,捕捉问题根因,同时收入结构打开对比,于是就下达了有针对性的建议。此外,决策的时效性上也改变了,公司老大们不用再每个月等待会上突然的如同开盲盒的数据结果,他们每天早晨8点,手机移动端都会收到这么一个推送,推送内容包含五大方面:经营核心指标、成本费用异动、商机合同情况、客户拜访最新进展、风险播报……如果有经营风险,可第一时间干预。即便在机场,或者在拜访客户的路上,也能把经营情况了解了,不用再等助理的层层收集上报,非常方便。从日志看,经营日报在公司一级部门经理层的日打开率90%以上,说明了一定的刚需。
但上述解决方案依然有很大进步空间。一方面目前都是结果自动化展示,没有自动的原因分析。另一方面是交互体验差。老板的时间就是生产力,但目前是被大量的数据淹没,问题情况无法突出展示,无法个性化提供:比如集团经营日报,里面的数据组件就有60多个!实话实说,整体看完至少要十几分钟。
所以我们理想的数据支撑科学决策是什么?less is more!想象一下,各位如果是高管,你们是否期待你的手机里有一个决策助理agent,通过自然语言就能和他做交互。你问:收入多少啦?他就秒回。问:为啥这个月又没达成?他可以从通用的多维度下钻或者指标拆解上给出合理分析。你今天去拜访大客户了,问他某个客户情况,他也分分钟速形成一个客户报告,发到你手机上。至于经分会,分析报告再也不用堆人多人天做,基础分析自动生成,财务业务专家们只要专题重点问题探究就好。上次的会议待办,系统也能自动化的PDCA来检视完成情况,用实际的业绩数据反馈行动的效果。
除了管理场景,再说几个一线提效场景。过去我们销售和服务做策略,都是拍脑袋居多,客户想要什么,应该推广给哪些客户,基本靠直觉,或者老江湖的直觉。但是基于数据的赋能,咱们做了两个方面的探索,一个是智能线索,一个是精准运营。
智能线索是,通过大量的内外部数据、如客户基础数据、购买数据、行为数据,形成特征向量,并构建决策树算法模型,进而找出高质量线索,推荐给销售,辅助他们去做有针对性的跟进。我们的年推荐线索能够到XX万,转化率到30%,转成产值收入大概XX个多亿,非常可观。
还有就是精准运营,我们把客户360数据,营、销、服、行为的数据打通,形成成百上千的客户标签,这样我们的运营同学,就可以随意的、快速的根据标签圈选客户,然后去做定向的运营动作。比如想快速找出来一批客户,满足如下条件:“二季度月要续费的,且今年客户中标5000w以上的XX类型项目5个以上的,且去年购买过我们XX的,且参加过我们线上培训的这么些客户”——我们要找出来这些客户,做一波促销推广。以前做这个事情,太难了,你要先找到这些数,然后清洗、拼接,一通操作猛如虎,结果发现不是想要的客户,再重来一遍……一次运营策划光数据部分就耗费3天以上时间,但现在通过我们的标签系统,是可以小时级别完成的。
但这个两个场景还不够智能,还有提升空间。我们理想状态下,智能线索是更加智能的,融合更多的数据、更加精准,模型可以动态迭代;另外我们的客户圈选和精准营销,一方面客户的标签可以通过算法模型跑出来,比如啥是高端客户,啥是高潜客户,啥是要流失的客户,这些都可以通过算法模型搞出来,打在客户身上;另一方面,我们的运营人员可以通过自然语言问答来完成,我们的运营专员,对着我们的应用问一问,就圈出来一拨人,甚至历史沉淀的比较好的运营动作以及效果,都能体现出来。我们距离这个理想态还有距离,但已经在前进的路上了。
最后说个合规控制的场景。我们企业做大了,其实有很多不合规的事儿每天都会出现,比如某销售偷偷赚客户差价的,某某违规采购或违规报销等等。以前捕捉这些行为得靠举报或者审计合规部门的大量调研,太难了。但借助数据和算法模型的力量,就很容易,比如把客户使用数据和订单数据匹配,把差旅报销数据串联等等,异常点很容易发现,管理动作就能跟进了,这块咱们其实都有在帮相关部门落地,挽损金额都是百万起步的。
以上三个例子,其实是想让大家感受到DATA+AI的场景和价值,这已经在给企业带来实实际际的变化。我总结一下,就是我们的使命,是要用DATA+AI去支撑企业的精细化运营。但是客观来说,这里面从此岸到彼岸——就是刚刚说的理想场景,其实还是有很多大山需要翻越。理想是丰满的,现实却是骨感的。比如,目前的三座大山:数据质量问题,“垃圾进,垃圾出”,低质量数据会直接导致模型效果大打折扣;此外,数据孤岛问题:我们的很多数据存在断点,无法很好连接;我们的非结构数据和结构化数据还没有能很好融合;目前的各个板块业务系统解决各自功能性问题,数据没有很好的流动到各个神经末梢;还有组织机制人才的问题:我们自身的数据意识、AI基础能力都是需要强化的,我们也非常缺乏懂业务、懂技术、懂数据的复合人才。
所以,为什么要重视DATA+AI?不仅仅是技术趋势的必然选择,更是企业发展的召唤。
是什么
好的,说完为什么要DATA+AI,再来看下什么是DATA+AI。
DATA+AI,我尝试从两个视角来解读一下,一个是从双向赋能的视角,一个是从企业架构的视角。
首先概念上还是我们还是要做个拉齐,什么是AI?AI=大模型吗?AI其实是通过机器学习、自然语言处理等,让系统具备感知、推理、学习和决策的数字化工具。从原理上,AI最主要的代表是机器学习,继续细分可分成传统机器学习AI和大生成式AI。传统机器学习模型,比如聚类、决策树、逻辑回归,是利用统计方法从结构化数据中寻找规律。而现在爆火的大模型,是深度学习,通过海量结构化/非结构化数据来实现推理和生成。我这列了一个对比表格,大家可以了解下。
这里其实有两个常见误区。一个是“搞AI=用大模型”。其实大模型只是AI的一种实现方式,目前半数以上的企业问题其实仍可以用传统机器学习高效解决。第二个误区是“大模型全面替代传统模型”,其实不是的。两者应该是互补关系,例如,在我们的智能线索推荐中,以前用的就是XGBOOTS+聚类,非常传统的机器学习模型,效果就非常不错了。但是大模型来了,我们可以考虑把分析社交媒体动态、各种建筑行业新闻资讯,客户语音和文字的投诉和需求,加入到模型中;此外输出的时候也不仅仅是推荐评分,还有自然语言文本描述好的推荐原因和客户沟通话术,价值更加直接。
第二个概念拉齐是DATA。说到数据大家脑子里想到是什么?一堆excel表格?ERP中的销售订单和财务凭证?还是一堆政策文档,音频视频?其实这都是DATA,DATA就是事物发生发展中的各种数字化记录。目前在企业数字化场景中,90%被管理和利用起来的都是结构化数据,比如我们公司纳入到数据仓库被有效开发利用的的几乎都是结构化数据,大概2个多PB。但实际上,企业中结构化数据只是全量数据的冰山一角,还有很多“暗数据”没有被利用。对于我们这类高科技软件公司,内部数据结构化占比也就50%,非结构数据也还很庞大,都是未被价值萃取的“石油”,比如大量的合同文本,客服对话、代码和代码注释、产品PRD文档、邮件、系统日志、宣传材料、培训记录、wiki知识等等等。而大家知道,对于大模型来说,它最擅长的是处理非结构化数据,所以这等于我们有了非常趁手的工具去处理和利用这些“暗数据”了。当然,这就对公司数据资产管理提出新的要求,这块咱们等有机会再详细展开说,是个更大的话题。
谈到 DATA 部分呢,还需要和大家补充一个非常好的概念,经典的DIKW转化模型(数据-信息-知识-智慧)。如图。一般情况下,知识和智能对于我们而言是最需要的,但这需要以数据、信息为基础。比如2024年全量的销售订单明细是“数据”,我们做成的统计报表和看板通常是信息;形成的销售分析报告是知识,那么从中发现的规律和形成的销售策略行动方案,就是智慧了。目前,大家容易泛泛的把这些都称为数据,也是可以的。但是从对企业经营运营有效性来说,我们希望得到的,往往是最上面两层。大模型的突出能力,是可以实现夸层转化——比如把基础原始数据直接生成知识,或者基于智慧反推一些信息,这都是之前技术比较难做到的,也是我们特别需要关注的。
共识了这两个关键要素之后,我们来看两者之间的关系。如果用一句话概括,就是:双向赋能,双向驱动,循环共生。DATA和AI两者形成数据智能飞轮,缺一不可。DATA for AI 是通过AI技术挖掘数据价值,提升数据应用的效率和效果。AI for DATA 是通过高质量的数据反哺AI模型,让AI有效落地。参考如下这个图
展开说下。首先我们一起来看DATA for AI,就是DATA 赋能 AI,确保AI模型有“优质粮食”。重点是防止garbage in,garbage out。我们说,数据是训练AI 模型的“燃料”,数据越全面、准确,模型效果越好。还是举例线索推荐,提升新购续费,要炼一个聪明的算法模型,我们需要准确的客户信息、用户行为信息、购买信息等,然后给出准确的历史购买情况,并尽可能覆盖所有场景;如果要加入大模型,那么还要建立高质量的知识库(相信我们做智能客服项目的伙伴一定感同身受,是不是百分之70%的时间都在做知识库构建),总之,有了尽可能丰富的、高质量的数据,我们才能“炼”出一个“聪明”的模型。
接着我们来看AI for DATA,就是AI 赋能 DATA,通过自动化能力,把数据基建的这个老大难问题给搞掂。比如数据采集,AI生成爬虫获取数据的效率大幅提升;数据清洗与治理:利用 AI 异常检测、自动标注和元数据关系图谱构建,实现对海量数据的实时质检与修复,智能数据集成,大幅降低 ETL 开发成本;数据分析:实现 AI问数,自动出具各类分析报告……。数据整个全生命周期的每个环节,AI的能力都能融入并发力。
AI for DATA有个非常经典的例子就是AI 赋能数据分析这个环节。尤其是chatbi,成为了AI场景的宠儿,也是目前AI厂商必做的产品——这块我们其实自己也探索了将近3年,也踏过无数坑。其实在chatbi中,有两个非常共识的数据消费场景,一个是对话式数据分析,一个是主动式数据洞察。他们核心指向都指向目前自助bi都难以达到的境界——让数据消费真正低门槛、高质量。但可惜的是,目前业界还没有一家企业真正实现chatbi的落地,为什么?是算力的问题么?不是,是因为DATA这里本身有太多功课要补。
Chatbi的核心模块是,利用大语言模型,实现Text2SQL的转化:我们数据消费者输入是一个数据问题,输出的是DIKW中的任何一层(是多少?为什么?会怎样?又如何?)。但就是一个Text2SQL技术,就拔萝卜带出泥,通用大模型可搞不掂。比如我们通过提示词工程,让大模型先能懂我们的数据结构,把问题翻译后,精准找到对应的表和字段。但事实上,我们的表很多字段描述就是乱的,我们自己都搞不明白:我们需要让大模型知道是大客户?什么是重点产品?收入和营收是一个东西?销售毛利和经营毛利分别怎么计算?外部项目和内部项目,但压根不是一个东西?客户和用户是有区别的?续费率如何计算?应用率是那么算的?连同比都有我们自己的计算规则……然后还要通过微调告诉他我们SQL的语法习惯等等等等……但这些,其实别说机器,就算来个聪明的实习生,我们人工讲好几天都未必能讲明白。所以人工搞不明白的东西,你怎么可能指望大模型来解决?更进一步,即便大模型给出了一个结果,我们又如何判断对错?
所以现在我们正在浪子回头,继续补课,做好数据基建的基本工作:规范企业内部术语(黑话;同义词);构建标准化的公司指标库(包含共识的逻辑和计算规则);踏踏实实做好公司标签库(将来构建共享特征库);把核心数据底表数据质量做好,把数据字典完善、补充元数据,甚至总结提炼沉淀目前报表中的大量高价值“分析思维链”(知识层面的,比如分析收入通常从哪几个维度打开,这是价值密度非常高的一部分内容)……等等,数据治理不做,再高级的模型也无法发挥作用。
好的,这两个说明白了,我们就可以看到,这两个双向赋能,其实循环优化的过程。第一步,我们可以用通用的AI的能力,做好数据治理,让数据资产更加优质;然后第二步,我们用优质的数据“炼丹”,“炼”出个性的企业内部大模型小模型,第三步,AI和agent就可以上阵服务了。从而让数据驱动企业经营运营升级,让决策更智能,让效率更提升,让数据价值最大化。
另外一个视角是企业 4A 架构层面,我们来看下,数据和AI能力是怎么和目前的 4A 架构结合的。
企业技术演进通常呈现信息化、数字化、智能化的三阶段跃迁。在信息化初期,企业以业务流程为核心构建IT系统,将制度规范转化为系统功能模块,此时数据作为流程执行的副产品沉淀于数据库中,虽可通过OLAP技术进行事后分析,但本质上仍处于"人控系统、系统管流程"的被动状态。例如我们通过LTC流程优化,并上线SAP管理系统,最终通过数据仓库抽取业务数据生成BI报表,这一阶段数据价值更多体现在流程回溯而非业务赋能。
随着数据要素价值觉醒,数字化阶段形成"双向驱动"模式——在原有流程驱动基础上,叠加数据驱动业务的新范式。通过跨系统、多维度数据的关联融合,企业得以挖掘出隐藏的业务规律:比如营销场景中,刚刚我们提到的把客户行为数据与交易记录的深度整合可生成动态客户画像,通过API接口实时反哺一线作业系统实现精准营销;在供应链领域,设备运行数据与财务核算的结合可自动触发应收账款预警,指导一线销售系统开展智能催收。此时数据已突破单点应用局限,形成"多源数据→价值提炼→业务闭环"的主动赋能链条。
怎么做
说完AI+DATA是什么,他们之间的概念,最后我们来说个最重要的,就是怎么做?就是我们如何让这两个翅膀煽动起来,配合起来,然后真正实现我们开篇说到的赋能企业智能化的经营运营?让客户成功落地,让企业可持续发展?
在落地层面,我个人认为需要有三个重要层面的事情。一是做正确的事儿,就是要找准场景,找准发力点。二是要高度重视数据资产和数据治理。三是组织模式人才等保障机制的配合。
首先做正确的事,就是场景价值驱动。现在deepseek带动大模型大火,领导要上大模型,但我们不是“被动营业”?不能为了用大模型而用大模型,而应该真正走到业务中去,看看业务实际中的痛点、难点是什么,真问题是什么,我们数字化的价值是什么?至于大模型,只是我们解决问题工具箱中的一个工具。所以找到真问题和真价值场景才是最重要的。在这里,我觉得还有个理念是需要讨论的,就是上AI不是为了取代谁,而是为了更好的释放人本来的价值。比如我们推chatbi,推智能数据分析,我们不能说这是为了让以前业务侧3个表哥表姐下岗2个,节约两个HC;而是应该说,让这些繁琐的、重复的、适合机器做的还给机器,让我们的员工真正回到客户服务中去,服务面对面,承诺心贴心,去发挥机器发挥不了的人的价值。这样才能让我们的AI落地工作没有那么多抵触,也变得有温度,更长远。
第二是要高度重视数据资产治理。开篇三座大山中,提到了数据质量和数据断点的问题。其实以后不仅仅是结构化的数据要入湖、治理,还有大量非结构化的数据要关注。这块数据谁来整合?谁来治理?所以以后我们各个企业一定会有“”多模态“”的数据仓库,会有不一样的数据管理方式,业务的人和技术的人要形成合力,才能把我们的数据资产做的非常丰富、非常全面,实现低成本的、高质量的多维度的数据就绪。
第三个我们要练好内功,让我们自己,我们的组织和人才与AI+DATA的时代适配。比如其实我们数字化部的伙伴们,都要学习一些算法模型和大模型的基本原理,具备基础能力,这样让我们的“客户解决方案”工具箱中的工具更加丰富:业务提出痛点,我们能马上想到更加适配的瑞士军刀,或许是大模型,或许不是,但要有这个思考。此外,我们也不能让自己去做机器适合做的工作,要努力把自己打造成懂业务+懂技术的复合型人才。
这三个方面如果用个比喻,可能更加形象:企业迈向数智化,其实就是要打造一个更加先进的“餐厅”,为我们的食客服务。餐厅中需要有食材、 厨具、厨师、最终通过菜品服务到食客。
AI能力层——包含算力(厨具)和算法(厨师),算力这就好比咱们厨房的炉灶、烤箱、冰箱这些核心设备。算力就是AI的“火力”,要是炉灶功率不够,炒菜就容易夹生;冰箱容量小、制冷差,食材都存不住。咱们想用大模型处理大量数据,设备先跟上。厨师的能力是算法。之前我们做的传统BI,算是能炒个小菜的厨师,适合做“拍黄瓜”“酸辣土豆丝”这类流程简单、样式标准的菜,能快速呈现基础数据,但很难做出复杂的新花样;传统算法模型是厨房里的“专业厨师”。咱们给它特定的任务,能处理“宫保鸡丁”这类需要按规则切配、组合的菜;但是如果上大模型,就是请“天才主厨”来做一些创意菜,比如“商务宴” ,甚至我们请来一个agent作为智能管家,就能自己联想各种食材组合,甚至创造新菜式。
现在咱们的问题是,厨房食材又少又乱,“天才主厨”和“智能管家”来了也巧妇难为无米之炊。必须先整理好食材(准备好数据),想好要做什么招牌菜(找准应用场景),再请这些高级帮手,不然花大钱请来了,也只能擦灶台!
然后是下层的数据基础层面——厨房的“食材储备和处理”。结构化、非结构化的数据治理,就像把厨房里各种各样的食材(新鲜蔬菜、冷冻肉、干货调料)都整理得明明白白。没切的整鸡、带泥的胡萝卜,得先清洗、切块;数据治理就是制定标准:蔬菜放冷藏、肉类冷冻,不同食材按规矩存放,保证要用的时候随手能拿到,防止食材分散不好找或者储存柜别上锁(数据断点和数据打通),而且都是干净、新鲜、能用的状态。
还有一个是业务应用层——厨房的“菜单和顾客需求”。这相当于咱们得搞清楚顾客到底想吃什么!不是所有菜都要用“天才主厨”(大模型)来做,咱们得去业务部门问清楚,他们最头疼的“客人”(业务痛点)是谁,再判断用哪种“做菜方式”(AI技术)最合适,是大模型、传统算法,还是简单规则,这样才能避免浪费资源,做出真正对胃口的“好菜”,解决实际业务问题。
总结来说,数据就是整个我们数字化体系中的血液,他需要而且必须顺畅的流动,在各个系统中、各个业务环节中输入输出,里面的养分被不断调用,而AI就是一个更加强大的起搏器或者加速器,让流动更加高效、养分更加充足,这样我们的数字化身躯就能快速奔跑起来。
以上,就是对DATA+AI,这个趋势的一些浅薄阐述。其实AI在持续的快速的发展,每天都有新的能力释放出来,但是还有很多不变的长期性的底层能力,需要我们持续关注和夯实。相信DATA+AI的时代,我们也会更加扎实得走向更加充满希望的未来。
来源:一个数据人的自留地