如何选择合适的大语言模型

360影视 欧美动漫 2025-05-06 20:49 2

摘要:许多企业正在通过大语言模型实现显著的生产力提升,但部分企业却在选择过程中举步维艰,因为计算资源昂贵、训练数据存在问题,或是单纯追求基于性能的最新最强大语言模型。CIO们现在正切身感受到这些问题带来的痛苦。

许多企业正在通过大语言模型实现显著的生产力提升,但部分企业却在选择过程中举步维艰,因为计算资源昂贵、训练数据存在问题,或是单纯追求基于性能的最新最强大语言模型。CIO们现在正切身感受到这些问题带来的痛苦。

“公司最常见的错误之一就是未能将大语言模型的选择与其具体业务目标相匹配。许多组织沉迷于最新技术的炒作,而没有考虑它如何为他们独特的用例服务,”全球专业服务机构 EY 的全球 AI 领域负责人 Beatriz Sanz Saiz 说。“此外,忽视数据质量和相关性的重要性可能导致表现不佳。公司往往低估了将大语言模型整合到现有系统中的复杂性,这将给未来带来重大挑战。”

这些错误的后果可能深远。选择不适合预期用例的大语言模型可能导致资源浪费,还可能带来糟糕的用户体验,因为模型可能无法达到预期表现。最终,这会破坏组织内部对 AI 项目的信任,并阻碍 AI 技术更广泛的采用。

“公司可能会发现自己处于需要重新评估选择并从头开始的境地,这不仅耗费高昂成本,还会打击士气。最好的方法是首先明确了解您的业务目标以及您希望解决的具体问题,”Saiz 说。“对现有大语言模型进行彻底调研,并全面分析它们的优缺点,这是至关重要的。”

她还建议与组织内的各个利益相关者进行交流,因为他们能够为需求和期望提供宝贵见解。此外,企业应先运行一些经过挑选的模型进行试点项目,以便在全面投入前评估它们在实际场景中的表现。

“一个关键的考虑点是,您需要的是通用大语言模型、领域专用语言模型 (DSLM) 还是混合方法。DSLM 在间接税或保险承保等领域变得越来越普遍,它们能为特定任务提供更高的准确性和效率,”Saiz 说。

无论如何,所选模型应具备随着组织需求演变而扩展的能力。同时,评估大语言模型如何遵守相关规定和伦理标准也十分重要。

“我的最佳建议是以战略眼光来选择大语言模型。不要急于求成,花时间了解您的需求和现有模型的能力,”Saiz 说。“与跨职能团队合作,收集多样化观点和见解。最后,坚持不断学习和适应。 AI 领域正在迅速发展,及时了解新进展将使您的组织未来做出最佳选择。”

还要注意,不要被最新的基准成绩所左右,因为这往往会扭曲视角和结果。

“对基准测试或最新版本过于痴迷的公司,可能会忽略在试验基础上实现规模化所真正重要的东西。基准测试固然重要,但真正的考验在于,大语言模型能否很好地融入您的现有基础设施,从而使您能够利用自己的专有数据或提示将其定制以适应您的用例,”全球金融基础设施公司 Tala 的 CTO Kelly Uphoff 说。“如果一家公司只关注基线性能,那么在以后的特定用例中扩展时可能会遇到困难。真正的价值在于找到一个能够随着您现有基础设施和数据不断进化的模型。”

明确定义用例

AIOps 解决方案提供商 Digitate 的高级科学家 Maitreya Natu 警告说,选择合适的大语言模型是一个艰难的决策,因为这会影响公司整体的 AI 项目。

“最常见的错误之一是在没有明确定义用例的情况下选择大语言模型。组织往往先选定一个模型,然后试图将其融入现有工作流程,而不是从问题本身出发,找出最适合解决问题的 AI,”Natu 说。“这会导致效率低下,企业要么在简单任务上投入过多成本于庞大且昂贵的模型,要么部署缺乏领域专属性的通用模型。”

另一个常见错误是完全依赖现成模型,而不针对行业特定需求进行微调。组织在安全方面也常常不足,许多公司在使用大语言模型时,对数据如何被处理、存储或用于再训练并没有充分了解。

“这些错误的后果可能很严重,可能导致无关紧要的见解、成本浪费或安全漏洞,”Natu 说。“不必要地使用大模型会大幅推高计算开销,而能力不足的模型则需要频繁人工介入,从而否定了自动化带来的好处。为了避免这些陷阱,组织应从明确自身目标开始。”

Dell Technologies 的首席软件工程师 Naveen Kumar Ramakrishna 表示,常见陷阱包括将大语言模型的炒作置于实际需求之上、忽视关键因素以及低估数据和整合的挑战。

“关于大语言模型的话题热度非常高,以至于许多公司跳进来,却没有充分了解自己是否真正需要一个大语言模型,”Ramakrishna 说。“有时,一个简单得多的方案,比如基于规则的系统或轻量级机器学习模型,可能更高效地解决问题。但人们对 AI 感到兴奋,突然间一切都变成了大语言模型的用例,即使这显然大材小用。”

公司往往忘记考虑成本、延迟和模型规模等因素。

“我见过一些情况,本可以用更简单的工具节省大量时间和资源,但人们却追求最炫耀的解决方案,”Ramakrishna 说。“他们还低估了数据和整合方面的挑战。公司往往对自身数据质量、数据量以及数据在系统中流动的情况缺乏清晰了解。整合挑战、平台兼容性以及部署后勤问题常常在流程后期才被发现,而到那时问题已经难以解开。我见过 [平台决定的延迟] 导致项目进度严重放缓,有的项目甚至连生产都没能进入。”

当高层要求证明投入的回报时,这种情况尤其严重。

“当选择错误的模型时,项目往往会在开发中途被中止。有时候它们能进入用户测试阶段,但随后因性能不佳或可用性问题而崩溃,”Ramakrishna 说。“还有时候,为了赶时间把东西推向生产而缺乏充分验证,这无疑是失败的配方。”

性能问题和用户不满是常见现象。如果模型过慢或结果不准确,最终用户会失去信任,停止使用该系统。当大语言模型提供不准确或不完整的结果时,用户往往会不断地重新提示或提出更多后续问题。这会增加交易次数,从而加大基础设施负荷,同时导致成本上升而结果无改善。

“成本最初往往被忽略,因为公司愿意在 AI 上大量投资,但当结果无法证明花费的合理性时,情况就会改变,”Ramakrishna 说。“例如,一年前在 [Dell] 内部,几乎每个人都可以访问我们托管的模型。但现在,由于成本上升和流量问题,即使访问基础模型也成了一大挑战。这清晰地表明了事态有多么容易变得不可持续。”

如何选择合适的模型

与其他技术问题一样,在选择大语言模型之前,明确定义业务问题和期望成果非常重要。

“令人惊讶的是,问题往往没有明确定义,或期望成果不清晰。没有这个基础,几乎不可能选择合适的模型,最终您将为错误的目标而构建系统,”Dell 的 Ramakrishna 说。“合适的模型取决于您的时间进度、任务的复杂性以及可用资源。如果上市速度是关键且任务简单,现成模型是有意义的。但对于更为细致的用例,其中长期准确性和定制化很重要,那对模型进行微调可能是值得的。”

组织在选择时应考虑的一些标准包括性能、可扩展性和总拥有成本 (TCO)。此外,由于大语言模型正变得越来越普及,开源模型可能是最佳选择,因为它们在定制、部署和成本控制方面提供了更多的控制权,同时也有助于避免供应商锁定。

数据质量、隐私和安全也至关重要。

“[数据隐私和安全]是不容谈判的。没有哪家公司希望敏感数据离开其环境,这也是为何内部部署或私有托管往往是最安全的选择,”Dell 的 Ramakrishna 说。“规模更大的模型并不总是更好。选择能够满足您需求的最小模型 [因为] 这将节省成本并在不牺牲质量的前提下提升性能。先从小规模开始,经过深思熟虑地扩展 [因为] 越大越容易直接上马,但从小而明确的用例开始,您会收获更多。先证明价值,再实现规模化。”

数字产品工程公司 Coherent Solutions 的首席技术官 Max Belov 表示,除了让模型与用例相匹配之外,还应考虑对模型进行多大程度的定制。

“有些模型在对话式 AI(例如聊天机器人和虚拟助手)方面表现出色,而其他模型则更适合内容创作。还有一些多模态模型可以处理文本、图像和代码,”Belov 说。“像 OpenAI 的 GPT-4、Cohere 的 Command R 以及 Anthropic 的 Claude v3.5 Sonnet 这些模型支持云 API,并且易于与现有系统集成。[它们还]提供了足够的可扩展性,以满足不断变化的业务需求。这些平台提供了增强的安全性、合规控制,并能够将大语言模型整合到私有云环境中。而像 Meta 的 LLaMA 2 和 3、Google 的 Gemma 以及 Mistral [AI 大语言模型] 则可以根据具体业务需求在不同环境中设置和定制。在内部部署大语言模型虽然能够提供最高级别的数据控制和安全,但这同时也需要专门的基础设施和维护。”

“要注意网络安全,因为使用大语言模型时,您需要与第三方提供商共享敏感数据。基于云的模型可能会带来更高的数据隐私和控制风险,”Belov 说。“大语言模型更适合处理多步骤任务,例如需要开放式推理的情境、需要世界知识的场景,或处理非结构化和新颖问题的情况。一般来说,企业的 AI 应用,尤其是大语言模型,不必追求革命性——它们只需实用。确立切实可行的目标,并评估 AI 如何能够提升您的业务流程。确定谁以及在何种规模下会使用大语言模型的能力,并衡量实施大语言模型的成功标准。以迭代方式构建您的 AI 驱动解决方案,并持续优化。”

Spending 管理 SaaS 公司 Emburse 的首席技术官 Ken Ringdahl 说,管理大语言模型的成本是一种后天技能,就像迁移到云端一样。

“使用大语言模型非常相似,许多人在实践中发现,基于实际使用情况和使用模式,成本可以迅速上升,”Ringdahl 说。“在给定的时间内尽可能多地测试各种大语言模型,看看哪一个在您具体的用例中表现最佳。确保该模型有完善的文档,并了解每个模型在处理特定任务时的提示要求。具体来说,可以使用零样本、单样本和少样本提示方法,观察哪个模型始终能提供最佳效果。”

为了控制成本,他认为组织应了解当前及未来的用例,以及它们的使用和增长模式。

“模型规模越大,其服务所需的计算资源也会越大,相应的成本也会更高。对于第三方大语言模型,一定要清楚了解每个 Token 的成本,”Ringdahl 说。“为了确保最高级别的数据隐私,无论是内部还是外部的大语言模型,都要深入理解并关注这些数据。删除可能泄露个人信息的私人或敏感数据。对于第三方系统,务必仔细阅读其隐私政策,并弄清楚组织如何使用您提供的数据。”

来源:至顶网

相关推荐