DeepSeek 如何重塑大数据：数势科技 SwiftAgent 的创新分享

摘要：导读本文将聚焦于金融行业，探讨 DeepSeek 在企业数据应用中的集成与应用。通过分支行业绩对比、代销与信贷产品分析及风险指标应用等阶段的实施案例，阐述如何利用大模型的链式思维输出、任务规划与小模型协同机制，实现数据归因、多维分析及自动化报告生成。研究指出，

导读本文将聚焦于金融行业，探讨 DeepSeek 在企业数据应用中的集成与应用。通过分支行业绩对比、代销与信贷产品分析及风险指标应用等阶段的实施案例，阐述如何利用大模型的链式思维输出、任务规划与小模型协同机制，实现数据归因、多维分析及自动化报告生成。研究指出，深度模型不仅能显著提升前端可视化与报告解读的交互体验，还可以通过透明化推理过程增强用户对分析结果的信任。同时，构建指标语义层是弥补大模型对企业私域数据理解逻辑不足的关键桥梁。文章还将讨论响应速度、权限管控与安全性等实际应用中的挑战与优化策略，并展望 DeepSeek 助力企业数字化转型的未来前景。

主要内容包括以下几大部分：

1. 引言：DeepSeek 的出现对于大数据领域的核心影响

2. 突破创新：数势科技 SwiftAgent 与 DeepSeek-R1 结合后的核心能力

3. 案例分享：金融行业数据智能应用思路分享

4. 规划展望：对数据应用产品与 DeepSeek 协同的未来展望

分享嘉宾｜岑润哲数势科技数据智能产品总经理

编辑整理｜陈思永

内容校对｜李瑶

出品社区｜DataFun

引言：DeepSeek 的出现对于大数据领域的核心影响

随着 DeepSeek 模型的火热登场，其在数据加工、异常检测、统计计算、指标推导等方面展现出极强的能力。在诸如财务分析、销售数据统计等任务中，对计算精度和逻辑推理要求非常高，例如在对一万行数据进行财务分析时，只要有一个数据统计错误，都可能导致整体报告失去可信度。因此 DeepSeek 的到来对大数据分析和应用领域是天然的利好。通过模型测评发现，其在数学推理、逻辑推演以及代码生成等方面，比之前的国产大模型有了明显提升。

进一步来看，在数据清洗阶段，传统的 ETL（Extract-Transform-Load）工作往往需要大量人工编写代码来识别和修正异常数据。而借助 DeepSeek 模型，我们能够实现对数据异常、缺失情况的自动检测，并且可以统计出数据分布情况，从而大大降低人工干预的成本与错误率。这不仅使数据预处理效率大幅提升，也为后续数据分析打下了更为扎实的基础。

除了数据清洗之外，DeepSeek 在构建指标语义理解方面也表现出强劲的推理能力。在实际的应用中，我们常常会面对销售额、成本等基础指标，进而需要计算出毛利、毛利率等衍生指标。借助 DeepSeek 模型，可以自动化地推导出这些指标，减少人工配置复杂公式的工作量，同时也能在一定程度上提升数据语义资产的构建速度。

另一个令人瞩目的方面便是数据可视化能力。当前在前端展示层面，结合 Html5、JavaScript 以及相关前端技术，DeepSeek 可以直接为开发人员提供端到端的交互式仪表盘和动态图表展示能力。这种能力使得原本需要花费大量时间手工调试数据可视化组件的过程得以简化，同时也让数据分析报告更加直观、生动。在接下来的分享中，会结合数势自身的产品案例，详细展示如何利用 DeepSeek 来构建更高效、友好的数据可视化方案。

在深度报告生成上，通过 DeepSeek 模型在数学计算和逻辑推理上的强大能力，数据分析报告的深度和逻辑性都有了显著提升。与以往单纯输出结论的模型不同，新模型能够输出完整的推理链——即“思维链”。例如，当我们要求模型对一个财务数据表进行详细分析时，它不仅能够计算出各项指标的数值，还能详细说明计算过程、阐述为何先进行数据清洗、接着衍生计算指标，再到最后生成报告的完整思路。这样的能力使得报告不仅是一个简单的结论呈现，而是一个透明、可追溯的推理过程，极大提升了报告的说服力和参考价值。

从 V3 到 R1 的模型训练过程中，其核心在于实现了两个对数据分析领域十分有利的激励目标。第一项激励目标是提升准确性（Accuracy Rewards），即在数据报告中进行数学计算（例如销售额、毛利的比值计算）时，能够显著提高数值精度。

第二项激励则是输出格式（Format Rewards），模型在输出数据分析报告时，不仅给出最终结论，还能够展示完整的推理过程，这些细化的思考过程在模型强化学习阶段便已得到激励，从而最终在报告生成时将数据预处理与计算逻辑完整打印出来。传统大模型往往只输出“结果”（what），而缺乏对过程（how）的展示。而采用 Test-Time Compute 的方式，模型就实现了从单一输出到同时呈现思维链的跃迁。这使得终端用户在获取深度数据报告时，不仅能看到最终结论，还能详细了解模型如何识别关键指标、构建公式、衍生指标等推理步骤，从而更全面地掌握分析思路。

另一方面，DeepSeek V3 与 R1 模型的出现，预示着未来企业将借助此类技术获得更多与数据应用相关的“数字员工”。在数据分析应用领域中，我们可以将任务划分为六个层级，相对应的会有四个不同的 Agent。其中最底层涉及数据仓库或数据平台中的数据源，利用 DeepSeek R1 等高效模型可实现数据清洗任务的自动化，即 ETL Agent。进一步，将数据模型转化为具备业务语义的指标与维度后，可由“指标智能体（Metric Agent）”自动完成衍生指标的生成。接下来，通过“洞察智能体（Insight Agent）”，基于表格数据调用模式函数、机器学习方法实现趋势分析和异常检测。最终，通过“报告智能体（Report Agent）”，可将所有分析整合为一份完整报告，供企业决策层参考。因此，未来无论是从数据源到指标的转化，还是从指标到内部分析的各环节，这四类数字员工有望成为企业数字化转型的标准配置，这也是数势科技致力于提升企业数据应用能力的重要目标。

不同尺寸的模型（如 V3、R1、以及类似 LLaMA 或 Qwen 的蒸馏版）在数据应用场景中各有特点。针对客户普遍关注的“在何种场景下应选用何种模型”这一问题，从数据分析应用的金字塔模型角度进行探讨。金字塔最基础且使用频率最高的层级是基础查询任务，例如事务性数据检索和明细指标查询，统称 Ask Data；第二层级是 Data Discovery，涉及同环比排序和对比等数据统计分析，需运用更多统计学公式；第三层级是 Data Reasoning，涉及预测、异常统计、聚类及趋势分析等需要多步推理的复杂任务；而最顶层，Data-Driven Action Plan，是综合数据表生成复盘报告，给出最终结论的高级任务。

基于上述划分，我们认为未来企业可能会同时部署两类大规模模型以实现协同作业：一类如 DeepSeek V3 模型，适用于快速输出意图识别和初步解析（主要处理 Ask Data 等基础任务）；另一类则如 DeepSeek R1 模型，凭借其支持长思维链（CoT）的深度推理能力，更适合用于处理复杂数据推理和报告生成任务。因此，企业不太可能只依赖单一尺寸的大模型，而是采用 V3 与 R1 模型混合部署的策略，以满足不同数据分析场景的需求。事实上，我们在与机构合作过程中发现，业务需求既包括对明细数据的快速查询，也需要对复杂报告的深入生成，前者需要在几秒钟内迅速响应，而后者则可以接受更长时间的计算。因此，不同类型模型的协同部署将成为未来数据应用领域的重要发展方向。

进一步考虑数据分析应用的实际场景，我们对全参数版本与其蒸馏版本进行了测试。在常见数据分析任务中，第一步通常为意图识别和任务分类（例如用户请求“查看最近七天的销售额，并生成可视化与报告”），任务经过推理模型拆分成多个子任务后，再依次通过函数代码（如 Python 代码）执行。测试表明，全参数 R1（如 671B 模型）在各项任务中表现优异，但由于其思维链输出难以精确控制，部分情况下可能出现冗长甚至死循环，以致影响输出效率；而蒸馏版（如 Qwen 32B 或原生 Qwen 72B）在代码生成和数学计算上虽然不及全参版本，但在效率上更具优势。因此，我们在产品中采用了全参版与蒸馏版混合使用的策略：在意图判断和任务分类阶段采用响应速度更快的蒸馏版，而在涉及复杂代码生成及可视化任务时，则调用全参版的 R1 模型。

综上所述，这一启示提醒我们在大数据应用产品设计时，产品经理应考虑多尺寸、多类型模型融合的方案，而非单一依赖 R1 模型，以避免体验瓶颈。上述混合架构正是我们目前的产品方案之一。

突破创新：数势科技 SwiftAgent 与 DeepSeek-R1 结合后的核心能力

接下来介绍数势科技自主研发的产品 SwiftAgent 在融合 DeepSeek R1 能力后，在数据分析各环节所获得的提升。

企业数据分析应用团队常面临三大挑战：第一，许多业务人员在自行编写 SQL 提取数据时遇到较大困难；第二，借助复杂的 BI 工具搭建可视化看板的门槛较高；第三，数据分析师需耗费大量时间在 Excel 透视表中进行统计分析及报告撰写。

SwiftAgent 希望从这三个方面解决用户痛点，提升工作效率。

目前，大多企业的数据消费范式为数仓+BI，这对于一线业务人员来说很难直接进行数据分析。因此我们希望基于指标语义层和大模型的能力降低业务人员的使用门槛，提升受众比例。

此外，该方案还促使企业数据团队的职能发生转变。传统模式下，企业通常组建数据分析师团队，由数据产品经理与工程师借助数据中台和 BI 工具响应业务需求，这一过程既复杂又耗时。引入指标语义层和大模型架构后，数据团队的核心任务将转变为维护涵盖数据模型、原子指标、衍生指标及维度的语义层。借助 DeepSeek 模型对指标语义的精准理解，企业能更高效地传递和响应需求，缩短响应时间，提升经营决策效率，从而推动数据民主化。

从功能层面看，SwiftAgent 整合了自然语言数据获取、智能归因分析、报告总结与解读、PC 端与移动端适配以及语义层确保准确性与安全性这五大核心能力。

从 DeepSeek 能力的角度来看，我们认为它能够从多个方面显著提升 SwiftAgent 的交互体验与性能。首先，在可视化方面，传统模型（例如 Qwen 模型或国外的 ChatGPT）在前端代码生成上的效果并不理想，通过引入 R1 模型的推理能力，结合 ECharts 或 HTML5 代码生成技术后，系统可以直接基于数据表端到端地构建看板，这一颠覆性能力已成功集成于 SwiftAgent 产品中，极大地提升了前端可视化体验。

其次，在报告生成层面，虽然传统输出的报告内容能够满足基本需求，但在分析深度和结构化思维链展示方面存在不足。经过集成后，系统能够优先输出报告的结构性思维链，再根据这一推理过程生成详尽的报告解读，从而更好地辅助业务领导进行汇报和决策。

同时，高阶的智能归因以及结合行业知识的决策建议能力也得到了明显提升，这些改进不仅优化了产品的交互体验，也显著增强了整体功能。

此外，一个重要的变化在于 R1 模型使大模型的思考过程实现了透明化。过去，我们仅将数据底表与查询传递给大模型，模型只以流式方式输出结果，用户难以知晓其推理过程是否存在问题。而现在，通过集成 DeekSeek R1，系统在执行例如利润分析任务时，会在前端完整展示其推理过程。以企业销售额与成本数据为例，若数据中未直接提供利润信息，系统会自动推理计算毛利率、衍生相关指标；同时，对时间序列数据还能进行异常检测，并结合品类维度进行诊断，最终通过前端生成图表，实现图文并茂的报告展示。这样的过程输出可控，用户能够清楚了解模型的假设及推理逻辑，从而提升结果的可信度。

通过以上展示可以直观地体会集成 DeekSeek R1 思维链后的实际效果。在前端，用户对某些指标进行查询时，系统会结合 DeekSeek R1 思维链明确展示其推理过程，例如在按照某一维度进行同款比分析时，前端界面会清晰展示模型如何思考和输出结果。这一变化极大地弥补了以往仅输出结果而忽略推理过程的不足，同时，通过 Pattern Code 的生成能力，系统还能调用小模型进行快速统计分析，找出各维度指标的异常。当前，我们已与华为等生态合作伙伴在后端部署了 R1 模型，并支持不同模型版本之间的切换，以适应不同场景需求。

系统整体上是基于 Agent 架构构建的。当用户在前端提出问题后，系统首先调用 DeekSeek R1 进行任务规划，利用 CoT 梳理任务步骤，比如第一步查数据、第二步计算同环比、第三步生成可视化、第四步规划报告。具体的数据解读、统计分析、归因分析等任务则通过 function call 调用专门模块来实现。针对 DeepSeek 强大的代码生成能力，有用户曾疑问为何仍需通过 function call 调用。对此，我们认为，在前端可视化层面，由于图表类型具有固定范式（如折线图、饼图、柱状图等），DeekSeek R1 能够稳定生成相应代码，未来可能无需 function call；而对于 SQL 逻辑或复杂业务解读，由于涉及企业专属业务规则，直接让大模型自动生成正确代码仍具有较大挑战，因此建议采用 DeepSeek与 API 封装的方式调用相关指标查询和归因分析能力。

此外，我们还从安全性、业务逻辑复杂性、稳定性与可维护性以及高频大数据分析性能四个方面进行了考量：

安全性：直接由大模型端到端生成代码可能忽略用户角色和权限，而通过 API 参数封装则能实现严格管控；业务逻辑：企业内部每个业务分析师的规则具有专属性，难以依赖大模型已有的世界知识；稳定性与可维护性：API 参数可控，能避免因模型版本更新引发的兼容性问题；数据量级：面对海量数据时，大模型上下文限制使其无法直接处理百亿级数据计算，需通过数据预处理与 API 封装进行性能优化。

综合来看，未来 DeepSeek 更适合聚焦于规划层和前端可视化代码生成层面，而大部分数据分析场景仍依赖 function call 联动与规划机制实现。

案例分享：金融行业数据智能应用思路分享

接下来，分享一家金融机构构建大模型数据应用的案例。该机构原先使用 Qwen72B 大模型，近期已在其设备上替换为 DeepSeek R1 与 V3 模型，其自然语言查询的准确度和报告深度均有大幅提升。

项目背景是为了满足总行及分支行领导对银行内部净收入、贷款余额、存款情况以及经营驾驶舱等关键指标的实时分析需求。以往是通过提交需求给 IT 部门的方式，现在领导可直接通过手机查询核心指标，响应时间控制在六秒以内（在开启深度思考模式后虽略有延迟，但报告质量更高），其需求满意度达到了 90%。上线第一周，领导共发出约 1200 条查询，表明这一大模型增强工具受到了广泛欢迎。

该项目是希望解决两大痛点，首先，银行总行拥有众多需求团队（涵盖财富管理、信贷、对公及个人业务等），而工程师仅有二三十人处理海量需求，导致响应效率低下；第二，指标语义加工链路长期处于黑盒状态，指标口径不一致，无法高效复用。

为此，我们通过大模型加小模型、以及指标语义联动的方式，实现每个查询先由 DeepSeek 拆解为任务规划，再由 DeepSeek R1 进行规划，并通过指标语义层映射出对应数据表和加工逻辑，将部分逻辑传递至数据仓库中计算，最终调用小模型进行归因预测与报告总结。如此一来，系统不仅能自动构建银行常见的衍生指标（如增速比例、逾期率等），还使得分析推理过程透明化，领导可以清楚看到每一步思考过程，从而降低对结果偏差的担忧。

我们对比了不同技术路线。此前，部分客户尝试直接通过 NL2SQL 方式生成 SQL 代码，但由于 SQL 本身已具备固定数学映射逻辑，对于多步、多任务需求难以实现自动化，因此我们更倾向于采用由 DeepSeek 牵引的 Agent 机制，结合指标语义层，来满足对高阶分析需求的支持。

在银行内部，第一期实施的重点主要集中在行内场景。为何选择先实现分支行业绩对比？原因在于银行领导层和董事长最关心的是各分支行在当年绩效考核中的排名及增速情况。因此，在一期项目中，我们通过 SwiftAgent 方案实现了分支行业绩对比功能，该场景已投入使用。在第二期，则计划重点关注代销产品分析、信贷产品分析以及风险指标应用等场景，并逐步推进落地实施。

经过多个项目实践后，我们发现尽管在 DeepSeek 能力加持下，解读、归因和多维分析能力得到了显著提升，但有时银行内部拥有数百乃至数千个指标，行长并不清楚具体该询问哪些指标。为了解决这一问题，我们在前端创新性地引入了小模型，先从海量指标中进行异动归因检测，并主动提示领导——例如指出“对公贷款余额近期出现下降”——实现小模型与大模型 R1 的协同配合。

在此基础上，系统会进一步利用 R1 强大的语言推理能力，推荐出进一步的分析问题。举例来说，当检测到对公贷款余额下降后，系统可能建议领导从三个维度进行分析：一是按分支行分析，二是依据产品类型分析，三是从客户风险等级角度分析。此过程并非完全依赖用户主动发问，而是由大模型自动生成推荐问题，帮助用户更精准地定位关注点，从而提升系统智能化水平。实际上，国外如 OpenAI 的 ChatGPT 在功能上也在尝试类似的任务跟进与异步通知模式，例如将用户问题转化为定时任务，由系统在后台执行后主动反馈结果。

一期项目落地主要包括三个阶段：第一阶段，银行数据团队负责对接 Swift 宽表的开发与治理；第二阶段，将宽表或雪花模型数据接入我们的工具，完成维度模型构建、指标开发和数据校验；第三阶段，协助业务人员梳理应用场景，并进行“行业黑化配置”。现阶段，借助 R1 的优势，我们甚至可以不依赖预先录入的黑化规则，通过结合用户角色信息（如行长、支行员）及问题描述，自动推测出所需指标和维度，从而进一步提升系统智能推荐能力。产品上线后我们还开展了系统培训和用户反馈优化。

在银行现有的贷款明细实时表等数据支持下，我们正探索利用 R1 模型自动对数据模型进行标注，将字段自动归类为 Dimension（维度）或 Metric（指标），从而大幅提升指标语义层构建的效率，未来只需对自动标注结果进行人工校正即可完成高质量指标体系构建。

规划展望：对数据应用产品与 DeepSeek 协同的未来展望

关于对未来 DeepSeek 与数据应用产品协同的展望，我们总结了三个主要层面：

首先，DeepSeek 技术未来或将成为企业内部 Agent 的“大脑”，但这并不意味着数据应用产品会被完全取代。数据产品仍如同企业的“手脚”，负责实现复杂归因、预测预警以及高阶统计等任务，而这部分工作依然需要依靠 API 调用和 DeepSeek 协同运行。其次，DeepSeek 拥有广泛的世界知识和通用常识，但无法完全掌握企业内部复杂的私域数据逻辑。因此，数据应用产品的核心价值在于构建“指标语义层”，这一层将底层数据仓库的信息转换为业务人员易于理解和使用的指标与维度，起到桥梁作用。第三，关于 DeepSeek R1 模型，目前存在响应较慢的问题，主要原因在于其链式思维（CoT）输出不可控，导致简单运算也可能耗时过长。我们期望未来 DeepSeek 团队能够开放链式思维输出长度的参数，使得用户能够根据任务复杂度灵活控制快思考与慢思考的平衡，从而更好地服务企业需求。

总之，DeepSeek 模型的引入不仅提升了企业内部数据应用系统的智能化水平，也为各类业务场景的实现带来了全新的思考方式和技术路径。未来，我们期待通过不断优化模型链式思维、指标语义层构建以及 API 封装等关键技术，进一步提升企业数据分析产品的整体效能和用户体验。

上图中的两个二维码，分别对应数势科技公众号和智能分析助手的试用，感兴趣的用户可深入体验我们集成 DeepSeek 能力后的最新产品功能和改进成果。

以上就是本次分享的内容，谢谢大家。