将大语言模型集成到现有软件系统的完整指南

摘要:随着最近应用迅速普及开来、人工智能(AI)得到广泛采用,大语言模型(LLM)已变得备受广大公司企业、开发人员和非开发人员的欢迎,因为它们为用户提供了诸多好处。它们帮助开发人员调试代码并生成代码片段,还帮助澄清看似复杂的编程概念和任务,从而提高生产力。

译者 | 布加迪

审校 | 重楼

随着最近应用迅速普及开来、人工智能(AI)得到广泛采用,大语言模型(LLM)已变得备受广大公司企业、开发人员和非开发人员的欢迎,因为它们为用户提供了诸多好处。它们帮助开发人员调试代码并生成代码片段,还帮助澄清看似复杂的编程概念和任务,从而提高生产力。

只要用于训练的数据集涵盖主题,使用LLM的非开发人员就可以受益于对问题做出快速且定制的响应和答复。

大语言模型(LLM)是能够理解和生成文本以及处理其他任务的AI模型。它们使用庞大的数据集加以训练,所以它们被称为“大语言模型”。

Transformer算法是训练LLM所使用的主要算法。LLM高度依赖数据,模型的质量与用于训练模型的数据的质量成正比。

LLM被广泛应用于各种应用领域,包括但不限于:

客户支持服务

LLM被公司企业用来以自然流畅的方式为客户的常见问题提供量身定制的回答。由于具有多语言功能,LLM可以理解和回答使用不同语言的查询,这可以惠及不同国籍的客户。

内容生成

LLM具有生成能力。它们可以根据用户提示或输入生成文本内容,比如诗歌、商业提案和电子邮件等。然而,一些生成的内容可能不正确、过时或不道德。始终建议对LLM生成的内容进行验证。

情绪分析

LLM可以分析文本的情感和语气。企业以多种方式使用这种能力。比如说,它们对客户反馈进行情绪分析,以确定满意度。

帮助研究

LLM可以帮助用户研究新的课程或概念,生成学习路线图,并在遇到挑战时解释低级概念。

医疗保健

LLM用于医疗保健管理、卫生人员支持、研究用途以及在没有医疗人员在场的情况下对患者提供虚拟帮助。用于医疗保健领域的这些LLM使用经过验证的庞大医疗数据集、文献甚至新的发现成果加以训练。

搜索引擎

传统的搜索引擎基于关键字算法,这使得它们在处理拼写错误以及理解人类语言、上下文和意图方面的效率略低于LLM。然而随着LLM目前被用于搜索引擎,这种情况已发生了变化,搜索引擎能够更有效地返回搜索结果。

明确目的是成功地将LLM集成到现有软件系统中的关键;这样,可以实施正确的方法来克服挑战,又不会造成额外的开销。

根据业务需求、技术团队具备的技能、时间限制以及针对某些技术的熟悉程度,可以选择合适的预训练模型进行集成。在选择要集成到项目中的模型时,还应该考虑其他因素,比如模型的准确性、模型延迟、可扩展性以及运行模型的成本。

下面列出了一些可用的选项和相关链接:

OpenAI API提供了对GPT-3和GPT-4模型的访问:https://platform.openai.com/docs/modelsAzure认知服务:https://azure.microsoft.com/en-us/services/cognitive-services/openai-service/Facebook的LlaMA:https://ai.meta.com/blog/large-language-model-llama-meta-ai/谷歌的BERT:https://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processing/Hugging Face自定义训练LLM(这可以通过使用PyTorch、TensorFlow或Hugging Face的Transformers等框架使用可用数据集以训练模型来实现)。

LLM可以通过针对公开可用的模型、托管的微调模型或任何满足你需求的模型进行API调用加以集成。通过针对公共模型的API调用加以集成始终是更容易的选择。

你只需要操心通过API密钥获得访问的成本,不必担心基础设施或软件更新;LLM API提供商会为你处理所有这一切。

托管自定义LLM便于你微调和利用满足特定业务需求的模型。托管你的自定义模型可以让你控制成本和性能,并且与公共API服务相比,它还提供了隐私。

在托管自定义模型时,你需要做以下工作:

从Hugging Face之类的存储库选择并下载公开可用的或开源的预训练LLM,比如GPT2、GPT3、BERT甚至T5。根据你的特定数据集对模型进行微调,以便与你的用例或应用场景保持一致;这样,响应针对特定领域进行定制,从而使模型更有效(可选步骤)。

如果你决定自行托管自定义模型而不是使用公共API服务,这个步骤必不可少。托管LLM需要拥有强大算力的硬件,因此最好使用搭载GPU的硬件以获得更好的性能。

可用于托管LLM的两个选项是:

Flask或FastApi是连接和服务LLM模型最常用的两种后端框架。你可以使用其中任何一种与LLM交互并返回响应。

如果你不想处理硬件购买、冷却、维护、软件升级及其他相关任务,可以选择云托管这个选项。这涉及使用基于云GPU的虚拟机来部署LLM。Azure、AWS或谷歌云等云提供商提供了良好的服务。

确保发送到LLM的数据得到正确的清理和标记,以便更好地理解模型并提高响应质量。

建立允许“优雅退化”的机制。无论何时发生错误,都可以返回默认响应,而不是让整个应用程序崩溃。

尽管将LLM集成到现有软件中有诸多优点,但也有一些缺点值得注意和考虑。

由于严重依赖高端GPU和TPU,训练模型和模型推理期间需要计算成本。频繁调用API可能成本高昂,对于高流量应用而言更是如此。如果将敏感数据发送到LLM,敏感数据可能会加以处理、存储和暴露给另一个用户,特别是当所使用的LLM可供公众访问时。除了适当微调的自定义模型外,大多数LLM只能提供开放式和通用的响应,而无法提供专业领域知识。训练LLM需要消耗大量能源,这可能导致碳排放量高和环境污染。

如果操作得当,将LLM集成到现有软件系统中大有助益,Meta、谷歌和X等许多知名的科技公司已经这么做了。它使软件智能化,能够解决当代的复杂任务。

在将现有的软件与LLM集成之前,你必须先定义希望它解决的问题和具体用例,然后选择合适的模型,并采用集成机制。

来源:51CTO一点号

相关推荐