大模型辅助软件测试在商业银行的应用研究

摘要：在快速变化的市场环境中，商业银行的产品和服务正在进行场景化、敏捷化和数智化转型，从而及时响应客户需求和业务变化。因此，IT系统作为金融业务发展的基础设施，其迭代速度和质量保证至关重要，而软件测试是软件质量的“最后一道防线”。人工智能大模型技术作为新质生产力的典

文/华夏银行首席信息官吴永飞

华夏银行科技开发与运行中心副总经理陈刚王彦博

华夏银行科技开发与运行中心吴锦陈志豪

在快速变化的市场环境中，商业银行的产品和服务正在进行场景化、敏捷化和数智化转型，从而及时响应客户需求和业务变化。因此，IT系统作为金融业务发展的基础设施，其迭代速度和质量保证至关重要，而软件测试是软件质量的“最后一道防线”。人工智能大模型技术作为新质生产力的典型代表，近年来快速发展，已逐渐成为信息科技革新的关键驱动力，为商业银行构建数智化测试质量保障体系提供新动能、新方案。

华夏银行在大模型辅助研发的“5D”框架体系的基础上，深耕软件测试场景和工作流程，面向测试场景覆盖度、测试案例设计标准化、测试数据生成所需人力成本、测试脚本编写所需人力成本、业务规则的周密性等业务关键点，充分运用大模型技术的语义理解、知识检索、逻辑推理和文本生成等关键特性，提出大模型赋能软件测试的“5R”方法论和“SPACE”应用框架，为大模型在软件测试体系的落地应用提供了指导，使大模型能力无缝嵌入到日常测试流程，为商业银行数字化转型和智能化发展的高效性及可持续性奠定了坚实基础。

华夏银行首席信息官吴永飞

2022年11月，美国OpenAI公司推出了ChatGPT对话机器人，受到了社会各界的广泛关注，标志着生成式人工智能时代的开启，并由此推动从弱人工智能向强人工智能发展的阶跃。这将为人类社会带来深刻的变革，产生深远的影响。近两年来，各商业银行纷纷在人工智能大模型领域持续发力，面向各类经营场景开展了大量大模型技术应用探索。

大模型技术能够为软件工程的各个环节赋能，包括需求分析、系统设计、系统开发、调试与测试、系统部署上线与运维等，通过提供全方位智能化支持，从而提升研发效率，助力数字金融全面降本提质增效。大模型辅助研发涉及的环节可以概括为“5D”框架体系（如图1所示），即需求分析（Demand & Requirement Analysis）、系统设计（Design of System）、系统开发（Development of System）、调试与测试（Debugging & Testing）以及部署与运维（Deployment & Operations）。本文聚焦Debugging & Testing（调试与测试）环节展开探讨。

图1 大模型辅助研发的“5D”框架体系

大模型技术依托其强大的表示和泛化能力，能够处理复杂的数据和任务，在自然语言处理（NLP）、计算机视觉（CV）等领域具有深远的应用潜力。在软件测试领域，核心流程是通过对测试需求的多种输入进行测试分析，自动生成标准化的需求测试点和测试案例，匹配测试案例对应的测试数据，并进行案例执行与问题跟踪闭环。在此流程中，不但涉及了测试业务和理论知识，还涉及了信息提取、推理分析、风险评估和结果整合等能力。因此，大模型语义理解、逻辑推理和文本生成等关键技术能力能够在软件测试中发挥效用。

在软件测试应用研究中，华夏银行提出大模型辅助软件测试的“5R”方法论，涵盖五项大模型相关技术方法，即读取（Read）、检索增强生成（Retriev-al-Augmented Generation，RAG）、重排序（Reranker）、响应（Response）和报告生成（Report Generation），将大模型技术与软件测试过程融合，推进软件测试智能化发展。具体而言，大模型在Read阶段利用强大的自然语言理解能力，面向提示词工程，从测试需求文档、接口文档和业务规则中提取关键信息、依赖关系和目标任务；而后大模型运用RAG技术，先从知识库或历史数据中检索与目标任务相关的上下文信息，如业务领域规范、常见异常路径和历史失败案例等，再将检索结果生成多组候选结果；针对RAG生成的多组候选结果，Reranker阶段通过相关性、风险等级等因素综合评估，更精细地对结果重排序，并通过Response阶段对结果进行输出；最后在Report Generation阶段，通过大模型进行执行数据和测试风险分析，完成报告生成，形成测试流程处理的闭环，从而实现大模型技术在软件测试中实用、高效的落地应用。

1.大模型选型

在大模型辅助软件测试“5R”方法论基础上，将测试需求文档、接口文档及业务规则等测试输入内容形成提示词，并输入大模型，而后对模型输出内容与实际测试过程中需求测试点和测试案例的匹配度进行验证。

本文选择国内通用的四种基础大模型进行对比验证，验证过程中对模型输出的内容进行标注，进一步获取对生成结果的采纳率、完整性和直接可用率等指标，从而对大模型的软件测试辅助能力进行综合评估，最终选择大模型B进行项目实施和集成，开展大模型能力在测试环节中的实践。对比验证情况见表。

表大模型对比验证情况

2.大模型辅助软件测试的应用框架

华夏银行提出大模型辅助软件测试的“SPACE”应用框架（如图2所示），包含测试脚本（Scripts of Testing）、需求测试点（Points of Requirement Testing）、测试分析（Analysis of Testing）、测试案例（Cases of Testing）和测试工程化（Engineering of Testing），将大模型能力无缝地嵌入到日常测试流程中。SPACE以自动执行测试脚本为目标，以需求测试点为切入点，运用大模型结合知识库进行测试分析，自动生成测试需求点、测试案例及其所需的测试数据，并以测试工程化为手段，与华夏银行一体化测试作业平台进行集成，实现应用落地。其中，测试需求点的生成采用“4B”框架，即基础测试点（Basic Testing Points）、银行专业测试点（Banking Testing Points）、业务经营测试点（Business Testing Points）和用户行为测试点（Behavioral Testing Points），从多维度针对测试需求进行测试需求分析，实现了测试点输出的完备性和科学性，提供了测试需求、测试案例分析与设计的质量保障；测试案例的生成采用“4F”框架，即业务操作流程（Flow of Banking Business）、数据特征（Feature of Data）、函数调用（Function Calling）和测试要素（Factor of Testing），体系化地将需求测试点细化为测试案例，形成既定的业务流和数据流，提升测试覆盖的深度和广度，推进实现从测试需求分析到测试执行的智能化和自动化。

图2 大模型辅助软件测试的“SPACE”应用框架

3.大模型辅助软件测试应用成效

基于“SPACE”应用框架，华夏银行以接口文档为输入，运用大模型和业务规则知识库，开展了接口测试的全流程测试实践。在需求测试点生成过程中，将读取的文档和业务规则知识库相结合形成提示词，从技术和业务两方面共同保障测试点输出的准确性和全面性。通过不同维度需求测试点对应测试案例生成的提示词，实现了测试案例生成的全面覆盖。最终，将银行测试数据平台的业务数据和测试案例相结合形成提示词，由大模型生成测试案例对应的执行数据（如图3所示）。

图3 基于大模型和知识库的软件测试解决方案

提示词工程是大模型辅助软件测试应用的关键技术手段，核心设计思路是将复杂问题原子化，结合多级提示词提取、多结果合并、角色设定和引导式提问策略，实现原子问题逐个突破，再将各项结果进行融合，从而提高问题解决的效率和准确性。在提示词的设计中应用了零样本、小样本优化策略，使结果输出更符合业务要求。对于比较复杂的任务，如字段间规则测试点提取，应用了思维链的优化策略，引导大模型一步一步思考得到更完善的测试数据结果。通过生成效果的持续验证和提示词的迭代优化，最终在多场景和多维度的评估验证中，通过当前提示词输入大模型生成的结果可以有效协助测试工作。

目前，基于大模型的接口智能化测试功能已在华夏银行一体化测试作业平台集成投产，并在测试领域全面应用，测试人员可以在平台上进行需求测试点、测试案例、测试数据的生成、采纳和优化。通过对测试人员使用情况的数据采集、分析和可视化展示，为提示词和整体解决方案的进一步优化提供方向和数据支撑。目前大模型生成结果的直接可用率为63%、综合采纳率为75%，实现了从测试输入到测试执行的智能化和自动化，降低了对测试人员的经验依赖和时间成本，提升了测试需求分析的准确性和完整性。

随着商业银行数字化进程的不断深化，软件研发模式持续创新和优化，大模型技术已经在软件测试中展现了可观的价值和潜力。本文面向大模型辅助软件测试在商业银行的应用研究，创新提出“5R”方法论和“SPACE”应用框架，为基于大模型开展软件测试提供理论支撑。基于大模型和知识库的软件测试解决方案应用成效显著，有效提升了测试效率、降低了测试成本、提高了软件交付质量，为商业银行构建智能化、自动化的软件测试方案提供了有益借鉴。

来源：金融电子化

标签：模型软件测试应用研究银行商业银行

本文地址：https://news.43u.com.cn/a/1328069.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!