摘要:在2025年的中关村论坛年会之“一带一路”暨金砖国家技术创新与国际合作论坛上,中国工程院院士、中国石油勘探开发研究院教授刘合专门分享了油气行业AI大模型应用的话题。他指出,大规模、高质量、多模态数据集对多模态大模型能力的提升愈发重要,以数据为中心的人工智能时代
在数据要素已成为生产要素的当下,数智化对产业的改造已成为产业链价值重构的必答题。
文|赵建琳
AI正加速渗透到各行各业!
在2025年的中关村论坛年会之“一带一路”暨金砖国家技术创新与国际合作论坛上,中国工程院院士、中国石油勘探开发研究院教授刘合专门分享了油气行业AI大模型应用的话题。他指出,大规模、高质量、多模态数据集对多模态大模型能力的提升愈发重要,以数据为中心的人工智能时代正加速到来。
从信息化到数字化,再到数智化,技术的迭代与场景的需求悄然间推动着企业在科技与产业革命中不断进化。在能源化工领域,中国石油天然气集团有限公司(以下简称“中国石油”)就是一个例子。从20世纪90年代推进信息化建设,到2010年后的数字化建设,再到2021年明确数字化转型、智能化发展的任务,以及2024年昆仑大模型的推出,“数智中国石油”建设日渐驶入快车道。
01
中国石油的数智化历程
20多年的信息化、数字化、智能化建设,不仅解决了管理低效和数据碎片化问题,更为中国石油积累了海量数据,为当前AI大模型应用奠定了数据与技术基础。
中国石油、中国石化、中国海油并称为“三桶油”,是国有重要骨干企业和全球主要的油气生产商和供应商之一。
中国石油的业务包括原油及天然气的勘探、开发、生产、输送和销售及新能源业务;原油及石油产品的炼制,基本及衍生化工产品、其他化工产品的生产和销售及新材料业务;炼油产品和非油品的销售以及贸易业务;天然气的输送及销售业务。
中国石油是中国油气行业占主导地位的最大油气生产和销售商,是中国销售收入最大的公司之一,也是世界最大的石油公司之一。
从产业链维度看,在上游,中国石油掌握着16家油气田,其中包括大庆油田(中国第一大油田)、 长庆油田(中国第一大油气田)、西南油气田(中国第二大天然气田)等等;在中游,中国石油拥有2.3亿吨/年炼油加工能力(2023年数据),炼化能力在全国排第二位;在下游,中国石油拥有两万多座加油站(截至2024年第一季度的数据)和多家化工销售企业,直接影响消费端能源供给,全产业链特征明显。
公开报道显示,中国石油下属的新疆油田早在1993年就开始了信息化建设,成立了勘探数据库项目组、开发数据库项目组和经营管理数据库项目组研发信息系统;2000年,中国石油建成“能源一号”石油网站,实行油气田生产使用的大宗物资、大型工程项目物资集中在网上统一进行采购交易;2008年,中国石油天然气与管道ERP系统全面上线,标志中国石油ERP建设取得重大进展,是信息化建设取得的又一项重要成果。
到2010年,中国石油统一的信息网络体系全面形成,其国内成员单位和海外分支机构接入广域网,勘探开发、炼油化工、油气储运、市场销售等领域的生产运行管理系统全面上线运行,大幅提升了主营业务的生产运行效率和管理水平。
2010年后,中国石油从信息化建设逐步迈向数字化建设,如2015年上线成品油零售移动应用“中油好客e站”APP;2016年中国石油启动打造国内油气行业首个智能云平台——勘探开发“梦想云”平台,旨在实现上游全业务链数据互联、技术互通、业务协同与智能化发展;2018年发布“梦想云”1.0,实现勘探开发生产管理、协同研究、经营管理及决策的一体化运营;2019年,“梦想云”2.0发布,标志着中国石油上游业务信息化迈入更高阶段。
2020年,中国石油组建昆仑数智科技有限责任公司,该公司的成立标志着中国石油推进数字化转型、智能化发展迈出重要一步。2021年,中国石油党组印发《关于数字化转型、智能化发展的指导意见》,计划到2030年,基本建成“数智中国石油”,实现全价值链业务的数字化,实现主要作业场景智能化;到2035年,全面实现数字化转型,智能化发展取得显著成效,全面建成“数智中国石油”。
2023年,“梦想云”4.0正式上线,标志着梦想云迈出了油气行业工业互联网平台建设的关键一步。2024年,中国石油联合中国移动、华为、科大讯飞共建能源化工行业大模型——昆仑大模型。
可以说,20多年的信息化、数字化、智能化建设不仅解决了管理低效和数据碎片化问题,更为中国石油积累了海量数据,为当前AI大模型应用奠定了数据与技术基础。这一历程印证了“没有信息化,就没有现代化”的战略远见。
02
AI如何赋能油气产业链
由于大模型的幻觉问题目前尚未攻克,而这对于生产型任务是不可接受的。小模型经过特定细分场景的长期打磨,在可靠性、准确性、实时性方面更优。
如果说通用大模型是“百科全书式”的通才,那么行业大模型就是扎根于产业逻辑的“专科医生”。
罗兰贝格全球合伙人李冰接受《商学院》杂志访谈时谈到,大模型将给诸多垂直行业带来颠覆性的变革,目前仍处在日新月异的发展和洗牌中。龙头企业拥有更好的数字化转型基础,也拥有更好的数据底盘和技术能力,因此在大模型的发展上具有天然优势。
他认为,龙头企业需要持续思考自身的角色定位,在推动行业大模型的发展中,不仅是提早卡位,还应发挥引领和突破的先锋作用,推动模型工程化能力的成熟和外溢,加速整个行业的数智化发展,让行业提早“看到未来”。
2024年5月,中国石油联合中国移动、华为、科大讯飞启动“昆仑大模型”的四方共建工作。
在此次合作中,中国石油计划打造“五个一”:建设一个央企领先的算力中心、一个集中统一AI中台、一套高质量行业数据集和一套国内领先的行业大模型,以及一系列创新应用。
2024年8月底,中国石油发布四方共建的330亿参数昆仑大模型建设成果,并通过了国家生成式人工智能服务备案,成为我国能源化工行业首个通过备案的大模型。同时,中国石油还宣布开放共享昆仑大模型能力,赋能能源化工行业广大从业者,引领行业智能化发展。
从模型训练角度看,四方共训练了不同层次、不同类型、不同尺寸等八个大模型以适应不同场景需求,从类型上分为行业大模型(130亿参数、330亿参数的语言大模型以及3亿参数的视觉大模型)、专业大模型(50亿参数地震解释和1亿参数测井处理解释)、场景大模型(130亿参数智能问数、3亿参数设备识别、160亿参数客户营销)。
在8月底的成果会上,昆仑大模型展示了地震解释大模型、测井处理解释大模型、员工助手、行业大家等应用。
具体来看,地震解释大模型可用于走滑断裂识别、火山岩识别等五个勘探应用场景,在塔里木、四川等盆地应用后,工作效率提高了10倍以上;测井是油气田地质研究、油藏描述、油气发现的关键资料,测井处理解释大模型打造了储层参数计算、流体识别和解释报告生成三个应用场景,处理解释准确度及效率大幅提升;员工助手应用可提供公文撰写、会议助手、规章问答、营销助手等功能;行业大家应用可提供能源化工领域的AI检索和问答功能,让使用者更便捷高效地获取行业知识。
2024年11月底,昆仑大模型又有了新的突破,不仅语言大模型参数从330亿升级到700亿,专业大模型在原有基础上又增加了地震处理,场景大模型从原有的3个增加到21个。此外,中国石油还构建了超过280TB的高质量数据集,研发了集中统一AI中台。
谈及不同尺寸模型在能源化工领域的应用场景,李冰指出,大模型依托规模庞大的参数体系和强大的泛化能力,在知识密集型、内容创作生成以及数据分析等通用性较强的场景具有显著优势。以石化行业为例,诸如知识管理、规章问答、科研文献解读、数据分析、日常会议与办公等场景,是大模型的率先用武之地。而在地质勘探、井位分析、开采、炼化等以专家知识和经验驱动的场景,小模型在短期内是更优选择,这主要由于大模型的幻觉问题目前尚未攻克,而这对于生产型任务是不可接受的。小模型经过特定细分场景的长期打磨,在可靠性、准确性、实时性方面更优,结合专家人工判断能发挥更大的价值,对于企业而言也更具性价比。
03
高质量数据的重要性
油气行业本身就存在数据治理难度较大的情况。
据悉,在共建昆仑大模型的过程中,各方都拿出了自己的所长,科大讯飞为中国石油构建了能源化工领域的AI检索和问答引擎;华为重点投入昆仑视觉大模型与科学计算大模型的建设,支撑专业大模型的训练与调优工作;中国移动提供了涵盖模型训练、数据处理和AI加速等方面的支持,移动云提供了超过1000P的稳定算力资源;牵头方中国石油则提供了关键的训练数据。
举例来说,地震解释大模型使用了海量的地震数据,测井处理解释大模型依托的是超过百万井次的数据积累,行业大家应用基于的是中国石油半个多世纪的行业数据积累。借此次共建机会,中国石油构建了超过280TB的高质量数据集,而这是行业企业在大模型建设中的核心价值。
刘合在今年中关村论坛年会上就重点谈到了数据治理话题,他从整个油气行业角度出发客观地阐述了大模型应用中为什么需要关注数据的高质量。
刘合在论坛上谈道:“油气行业数据涵盖地质勘探、钻井、生产和运输等多个环节,每个环节的数据采集都伴随高昂的成本,样本数量少且获取困难,数据类型多样,存在多解性和不可验证性。此外,油气行业对数据安全性和保密性有很高要求,数据不能上传公有云,必须防止泄露,因此普遍存在‘数据孤岛’问题。”
这些特点表明,油气行业本身就存在数据治理难度较大的情况。在此背景下,如果数据质量不高,可靠性缺失,盲目增加模型参数会放大偏差,使得模型性能和泛化能力下降,导致资源浪费(不可靠数据需要更多的数据清洗和预处理工作,耗时耗力),更严重的会影响决策,基于低质量数据产生的预测和解释可能会误导企业选择错误的勘探方向、开发策略或生产方案,造成巨大资金损失和环境破坏。
因此,他建议垂直行业做大模型要关注高质量数据集的建设,在数据采集阶段就考虑通过物联网等技术提升数据采集能力,做好训练样本库的基本功,加强数据全生命周期管理,提升数据治理能力。
李冰也指出,丰富的高质量数据集是AI落地部署的先决条件,而目前石化行业的数据集还不健全,距离高质量发展也仍有距离。石化行业作为高危行业之一,在安全领域初步涌现了一批数据集,例如油井甲烷泄漏状态、水下管道破损、火灾及烟雾图像分割等,但在核心生产环节的数据集发展还相对迟缓。许多石化企业的DCS数据尚未采集,工控设备厂商的数据标准不统一,这些都是打造大模型过程中的挑战。
AI向千行百业的渗透,是数字文明生长出的“毛细血管”。李冰分享了一个案例,欧盟国家历经多年开采,也面临优质油气资源减少的挑战,油气公司MCF Energy利用AI技术在德国勘探区开展了三个场景的应用:一是精细化地质建模,准确反映岩石性质、岩石孔隙度、渗透率等地质信息;二是油气藏储量评估,推测含油量;三是最佳井位分析,模拟不同井位方案并计算相关指标,进而实现更高的钻井成功率。
在数据要素已成为生产要素的当下,数智化对产业的改造已成为产业链价值重构的必答题。
来源 | 2025年5月刊
来源:新浪财经