技术应用 | 算力受限下的大模型应用优化实践与思考

摘要：大模型往往需要巨大的算力支持，而中小银行通常没有足够的资源来部署和维护算力基础设施，这限制了这些先进技术运用于业务的潜力。中小银行可制定切实的解决方案，克服算力限制，充分利用大模型带来的优势，提升服务质量，增强竞争力。本文将以知识库问答应用为例，介绍我行落地大

文/成都农商银行科技信息部副总经理司徒浩

成都农商银行科技信息部黄樵赵运枫

大模型往往需要巨大的算力支持，而中小银行通常没有足够的资源来部署和维护算力基础设施，这限制了这些先进技术运用于业务的潜力。中小银行可制定切实的解决方案，克服算力限制，充分利用大模型带来的优势，提升服务质量，增强竞争力。本文将以知识库问答应用为例，介绍我行落地大模型的路径，剖析应用落地面临的主要问题，并思考大模型落地实践的优化策略，为中小银行在大模型应用方面提供发展思路。

1. 知识库问答应用

大模型RAG（Retrieval-Augmented Generation）是一种先进的自然语言处理技术，它通过结合检索和生成两大关键技术，为各种任务带来了显著的性能提升。模块化RAG（Modular RAG）通过将RAG系统拆分为多个功能模块，每个模块类型代表了RAG系统中的一个核心流程，如索引、检索、后处理、大模型生成等关键步骤。这种模块化结构允许RAG系统根据不同的应用场景和需求进行定制化设计，从而更好地解决特定领域的业务问题。

成都农商行利用模块化RAG技术搭建了一套知识库问答应用，将业务文档与操作手册的内容进行分类与清洗，形成高质量的知识片段，并为其建立向量索引，导入向量知识库中。同时，收集FAQ（Frequently-Asked Questions）问答对作为补充信息导入知识库中。最后，根据不同领域知识点对召回范围、检索精度、回答稳定性与准确性的要求，使用RAG的各个模块，编排完整对话流程。

2. 面临的问题

大模型除了可用于知识库问答，还能作为Agent智能体用于各个自动化决策场景中。然而，随着大模型的深入应用，应用场景量与用户量逐渐增加，必定会面临诸多问题，如语料数据少、应用经验不足、数据安全管理、算力资源管理等。下面将进一步分析我行大模型应用落地过程中面临的两个关键问题：算力资源紧张与成本控制压力。

首先，算力资源紧张。大模型的运用会造成算力资源紧张，一是大模型本身具有参数规模庞大性与复杂性，通常具有数十亿甚至数千亿的参数，这导致它们在处理和生成内容时需要消耗大量算力。二是数据量庞大，知识库需要加工处理大量各种原始数据，形成知识沉淀，随着知识量的增加，对计算资源的需求也随之增加。三是大模型对实时性要求高，知识库应用往往需要快速响应用户的查询，这意味着模型需要在有限的时间内完成复杂的推理计算任务。四是大模型需要多任务同时处理，在某些情况下，如复杂的RAG流程，用户发起一次查询，知识库应用可能需要同时生成并处理多个查询或任务，这进一步增加了对算力的需求。

其次，成本控制压力。大模型运用要求较高的软硬件和运营成本。一是硬件成本高，部署大模型需要高性能的AI加速卡或其他专用硬件，这些硬件的成本通常非常高。二是能源消耗大，大模型的训练和推理需要消耗大量电力，长期来看，这会导致显著的能源成本。三是维护和运营成本高，除了硬件成本外，还需要考虑数据中心的维护、冷却系统、网络设备等的运营成本。四是人力成本高，大模型的部署和维护，以及语料数据的整理需要数据科学家、工程师和技术支持团队，这些都涉及到人力成本。五是可扩展需求多，随着用户数量的增加，可能需要更多的资源来支持新增的并发请求，这就需要在成本和性能之间找到平衡。

大模型技术可能需要长期投资，但回报周期当前并不明确，导致中小银行在预算分配和成本控制上面临挑战。因此，算力不足其实是中小银行普遍面临的问题。我们深入分析了当前的行业报告、技术发展趋势、同业实践案例，以及专业知识和技术社区的最佳实践分享，同时结合了自身实践经验，总结了一些解题思路与策略，以期帮助中小银行在落地大模型技术过程中，优化资源配置和控制成本（见图1）。

图1 大模型算力优化策略

1. 准确评估算力需求

结合自身情况与业务场景，估算训练与推理所需的算力大小，确定AI加速卡真实需求。

算力总需求=模型参数量×总词数×单个词计算量

总词数=用户访问词数×每次访问的提问数量×模型每个回答包含的词数，词数与用户访问数成正比

AI加速卡数量=算力总需求/单卡算力/计算用时

AI加速卡往往需要与CPU协同工作，可以看成是CPU的协处理器，因此还需要分配相应的CPU资源。

2. 算力私有化部署

大模型的训练比推理需要更高的算法精度，同时单个词计算量更大，可以采用量化方式降低模型参数精度，减少算力消耗，同时尽可能减少模型训练的词数与模型参数量。

不追求通用的大参数量的模型，确定模型能支持的业务范围，小步快跑，收集用户反馈，整理私有化场景数据，开启内部的数据飞轮。

使用大模型推理优化技术，并采用针对推理优化的计算框架，如vLLM、MindSpore等。

不需要追求高端AI加速卡，由于模型推理不需要太强的算力，可以采用中低端计算芯片，基于FPGA和ASIC的卡也能够胜任推理任务。针对并行计算优化的新型CPU也在快速发展，也是值得关注的发展方向。

选择相对成熟的软件生态。由于各厂商的软件与硬件强绑定，其生态不能完全相互兼容，因此需要注意后续开发与维护的难易程度。

3. 算力混合部署

确保数据安全，避免在内部办公与开展业务时使用公共大模型云服务。

日常模型推理使用自有算力，并可利用手机终端的计算能力，实现大模型的边云协同计算，即终端部署小参数的模型，服务端部署参数量大的模型。

在确保数据安全前提下，可以在需要训练私有化模型的时候，短期租用安全可信的公有云算力，补充算力的不足。

4. 算力统一管理

基于大模型开发应用时，需要避免烟囱式建设，应用可以有多种，但基座模型应该是稳定的。这是大模型的优势之一，即一个模型就能胜任多种传统自然语言任务。无论使用何种方式部署算力，都可将资源池化，并进行统一的精细化管理。如果有条件，可以将模型开发的全栈链路平台化，打通基础设施与模型服务发布之间的所有环节，进一步提高管理的精细化水平（见图2）。

图2 算力统一管理方案

大语言模型掀起了新一轮人工智能技术创新热潮，其强大的表征学习能力能融合多模态数据（文字、图像、视频、音频），使其拥有巨大的想象空间。与此同时，基于该技术的各类应用层出不穷，日新月异，令人应接不暇。然而，中小银行应结合自身实际情况，通过持续的成本效益分析，确保大模型应用的投入能够带来正向的回报和价值。在符合监管要求与控制成本的前提下，根据自身算力条件，最大化大模型技术的应用价值。用新型智能化技术降低开展业务的成本，提高决策的效率，为本地市场提供定制化的金融产品和服务，实现长期可持续的高质量发展。

来源：金融电子化

标签：模型应用技术 rag 加速卡

本文地址：https://news.43u.com.cn/a/1541838.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!