摘要:大模型往往需要巨大的算力支持,而中小银行通常没有足够的资源来部署和维护算力基础设施,这限制了这些先进技术运用于业务的潜力。中小银行可制定切实的解决方案,克服算力限制,充分利用大模型带来的优势,提升服务质量,增强竞争力。本文将以知识库问答应用为例,介绍我行落地大
文/成都农商银行科技信息部副总经理 司徒浩
成都农商银行科技信息部 黄樵 赵运枫
大模型往往需要巨大的算力支持,而中小银行通常没有足够的资源来部署和维护算力基础设施,这限制了这些先进技术运用于业务的潜力。中小银行可制定切实的解决方案,克服算力限制,充分利用大模型带来的优势,提升服务质量,增强竞争力。本文将以知识库问答应用为例,介绍我行落地大模型的路径,剖析应用落地面临的主要问题,并思考大模型落地实践的优化策略,为中小银行在大模型应用方面提供发展思路。
1. 知识库问答应用
大模型RAG(Retrieval-Augmented Generation)是一种先进的自然语言处理技术,它通过结合检索和生成两大关键技术,为各种任务带来了显著的性能提升。模块化RAG(Modular RAG)通过将RAG系统拆分为多个功能模块,每个模块类型代表了RAG系统中的一个核心流程,如索引、检索、后处理、大模型生成等关键步骤。这种模块化结构允许RAG系统根据不同的应用场景和需求进行定制化设计,从而更好地解决特定领域的业务问题。
成都农商行利用模块化RAG技术搭建了一套知识库问答应用,将业务文档与操作手册的内容进行分类与清洗,形成高质量的知识片段,并为其建立向量索引,导入向量知识库中。同时,收集FAQ(Frequently-Asked Questions)问答对作为补充信息导入知识库中。最后,根据不同领域知识点对召回范围、检索精度、回答稳定性与准确性的要求,使用RAG的各个模块,编排完整对话流程。
2. 面临的问题
大模型除了可用于知识库问答,还能作为Agent智能体用于各个自动化决策场景中。然而,随着大模型的深入应用,应用场景量与用户量逐渐增加,必定会面临诸多问题,如语料数据少、应用经验不足、数据安全管理、算力资源管理等。下面将进一步分析我行大模型应用落地过程中面临的两个关键问题:算力资源紧张与成本控制压力。
首先,算力资源紧张。大模型的运用会造成算力资源紧张,一是大模型本身具有参数规模庞大性与复杂性,通常具有数十亿甚至数千亿的参数,这导致它们在处理和生成内容时需要消耗大量算力。二是数据量庞大,知识库需要加工处理大量各种原始数据,形成知识沉淀,随着知识量的增加,对计算资源的需求也随之增加。三是大模型对实时性要求高,知识库应用往往需要快速响应用户的查询,这意味着模型需要在有限的时间内完成复杂的推理计算任务。四是大模型需要多任务同时处理,在某些情况下,如复杂的RAG流程,用户发起一次查询,知识库应用可能需要同时生成并处理多个查询或任务,这进一步增加了对算力的需求。
其次,成本控制压力。大模型运用要求较高的软硬件和运营成本。一是硬件成本高,部署大模型需要高性能的AI加速卡或其他专用硬件,这些硬件的成本通常非常高。二是能源消耗大,大模型的训练和推理需要消耗大量电力,长期来看,这会导致显著的能源成本。三是维护和运营成本高,除了硬件成本外,还需要考虑数据中心的维护、冷却系统、网络设备等的运营成本。四是人力成本高,大模型的部署和维护,以及语料数据的整理需要数据科学家、工程师和技术支持团队,这些都涉及到人力成本。五是可扩展需求多,随着用户数量的增加,可能需要更多的资源来支持新增的并发请求,这就需要在成本和性能之间找到平衡。
大模型技术可能需要长期投资,但回报周期当前并不明确,导致中小银行在预算分配和成本控制上面临挑战。因此,算力不足其实是中小银行普遍面临的问题。我们深入分析了当前的行业报告、技术发展趋势、同业实践案例,以及专业知识和技术社区的最佳实践分享,同时结合了自身实践经验,总结了一些解题思路与策略,以期帮助中小银行在落地大模型技术过程中,优化资源配置和控制成本(见图1)。
图1 大模型算力优化策略
1. 准确评估算力需求
结合自身情况与业务场景,估算训练与推理所需的算力大小,确定AI加速卡真实需求。
算力总需求=模型参数量×总词数×单个词计算量
总词数=用户访问词数×每次访问的提问数量×模型每个回答包含的词数,词数与用户访问数成正比
AI加速卡数量=算力总需求/单卡算力/计算用时
AI加速卡往往需要与CPU协同工作,可以看成是CPU的协处理器,因此还需要分配相应的CPU资源。
2. 算力私有化部署
大模型的训练比推理需要更高的算法精度,同时单个词计算量更大,可以采用量化方式降低模型参数精度,减少算力消耗,同时尽可能减少模型训练的词数与模型参数量。
不追求通用的大参数量的模型,确定模型能支持的业务范围,小步快跑,收集用户反馈,整理私有化场景数据,开启内部的数据飞轮。
使用大模型推理优化技术,并采用针对推理优化的计算框架,如vLLM、MindSpore等。
不需要追求高端AI加速卡,由于模型推理不需要太强的算力,可以采用中低端计算芯片,基于FPGA和ASIC的卡也能够胜任推理任务。针对并行计算优化的新型CPU也在快速发展,也是值得关注的发展方向。
选择相对成熟的软件生态。由于各厂商的软件与硬件强绑定,其生态不能完全相互兼容,因此需要注意后续开发与维护的难易程度。
3. 算力混合部署
确保数据安全,避免在内部办公与开展业务时使用公共大模型云服务。
日常模型推理使用自有算力,并可利用手机终端的计算能力,实现大模型的边云协同计算,即终端部署小参数的模型,服务端部署参数量大的模型。
在确保数据安全前提下,可以在需要训练私有化模型的时候,短期租用安全可信的公有云算力,补充算力的不足。
4. 算力统一管理
基于大模型开发应用时,需要避免烟囱式建设,应用可以有多种,但基座模型应该是稳定的。这是大模型的优势之一,即一个模型就能胜任多种传统自然语言任务。无论使用何种方式部署算力,都可将资源池化,并进行统一的精细化管理。如果有条件,可以将模型开发的全栈链路平台化,打通基础设施与模型服务发布之间的所有环节,进一步提高管理的精细化水平(见图2)。
图2 算力统一管理方案
大语言模型掀起了新一轮人工智能技术创新热潮,其强大的表征学习能力能融合多模态数据(文字、图像、视频、音频),使其拥有巨大的想象空间。与此同时,基于该技术的各类应用层出不穷,日新月异,令人应接不暇。然而,中小银行应结合自身实际情况,通过持续的成本效益分析,确保大模型应用的投入能够带来正向的回报和价值。在符合监管要求与控制成本的前提下,根据自身算力条件,最大化大模型技术的应用价值。用新型智能化技术降低开展业务的成本,提高决策的效率,为本地市场提供定制化的金融产品和服务,实现长期可持续的高质量发展。
来源:金融电子化