智谱发布全新推理大模型，速度快8倍，价格比DeepSeek-R1更低~

摘要：现在的大模型多如牛毛，LLaMA、Qwen、Bert等等，根本学不过来，甚至有的卷王还看Transform源码，这对于一般人来说学习曲线太长了。

现在的大模型多如牛毛，LLaMA、Qwen、Bert等等，根本学不过来，甚至有的卷王还看Transform源码，这对于一般人来说学习曲线太长了。

如果不是搞底层算法开发，只是学习应用的话，我建议直接上手国产开源推理大模型，比如DeepSeek R1，以及GLM-Z1-Air，是智谱AI这两天才发布的全新开源模型，推理速度非常快，超越R1，后面会详细讲到。

由于R1的火爆，今年推理模型彻底占据了用户市场，创造了“哇哦”时刻。大家知道，传统的对话模型缺乏深度思考，专业能力较差，而且非常考验用户的提示语能力，推理模型则只需要简单的日常对话，就可以输出逻辑性严谨的专业回答，像是数十个不同领域“专家”在随时候命。

而且推理模型能够开发各种垂直应用，比如企业知识库、代码助手、医疗诊断、合同审查等，配合RAG、Agent、LangChain做开发，可玩性非常高。

在国内众多大模型厂商里，有一家稳扎稳打，持续在发布新的模型，我非常看好，便是智谱AI。智谱AI有一个大模型开放平台BigModel，里面提供了GLM系列和多模态等几十种大模型，GLM-4经常名列各种排行榜前列。

BigModel平台提供了稳定的API接口，以及详细的说明文档，可以使用Python SDK、HTTP请求进行调用，非常便捷，最主要的是稳定且速度快，对于企业应用来说非常重要。

就在这两天，智谱开源了 32B/9B 系列 GLM 模型，涵盖基座、推理、沉思模型，均遵循 MIT 许可协议。该系列模型现已通过全新平台 Z.ai 免费开放体验，并已同步上线智谱 BigModel开放平台。

其中，推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型，实测推理速度可达 200 Tokens/秒（bigmodel.cn），目前国内商业模型中速度最快。此外，其价格仅为 DeepSeek-R1 的 1/30。

除模型开源外，基座、推理两类模型也已同步上线智谱开放平台（bigmodel.cn），面向企业与开发者提供API服务。

上线的推理模型分为三个版本，分别满足不同场景需求：

GLM-Z1-AirX（极速版）：定位国内最快推理模型，推理速度可达 200 tokens/秒，比常规快8倍；GLM-Z1-Air（高性价比版）：价格仅为 DeepSeek-R1 的 1/30，适合高频调用场景；GLM-Z1-Flash（免费版）：支持免费使用，旨在进一步降低模型使用门槛。

GLM-Z1-AirX到底有多快，我们用常见的Python编程问题测试下GLM-Z1-AirX和DeepSeek-R1的推理速度和效果。

提示如下：

使用Python模拟200行电商用户行为数据，然后对用户进行价值分类，分为高价值用户、潜力用户、一般价值用户，最后对数据进行可视化，能清楚看到三类用户的分布特征。直接输出代码即可，不需要其他描述，要保证代码无错误可执行。

❞

GLM-Z1-AirX推理时间10秒左右，DeepSeek用了29秒。

两个模型都完成了设定的任务，输出了准确的Python代码，下面看看生成的可视化效果如何。

首先是GLM-Z1-AirX生成的可视化图表，比较清晰的展示了用户的分布情况。

接下来是DeepSeek生成的可视化图表，UI简洁，也同样展示了用户分布。

这说明GLM-Z1-AirX在保证性能的同时，在编程推理速度上有大幅提升，还是比较难得。

我是做数据开发工作的，经常会遇到业务部门提分析需求，所以小组里会有大量的SQL代码编写和审核工作，既费时费力，还可能存在审核不规范、代码不准确的情况。

有了推理大模型，这一情况得到很快的改善，我们尝试基于GLM-Z1-AirX开发“SQL代码自动化审核和生成工具” ，支持自动化审核SQL代码，并返回审核结果，以及根据用户自然语言生成SQL查询代码。

这个工具即可以在终端和web应用中使用，还能部署到企业内网中，实现SQL提交、生成、审核、共享等服务。

大致的工作设计流程如下：

接下来开始进行API准备和代码开发工作。

先注册并登陆Bigmodel平台，然后找到key界面，生成专属的key，后面接入API需要用到。

智谱AI开放平台

接下来在模型中心里找到GLM-Z1-AirX模型，点开文档，里面有详细的API接口说明，包括接口信息、请求参数、响应参数等。

然后找到Python的SDK示例代码，智谱有专门的第三方库zhipuai，负责调用模型，你可以参照示例代码来设计接口模块。

有几个重要参数说明下，model要填写GLM-Z1-AirX，max_tokens根据需求自定义，temperature可以设置为0.5，因为是代码推理任务，不需要太具有创造性。

我的接口模块设计如下：

这个功能是整个应用的核心功能，方便用户提交SQL代码后，触发审查逻辑并调用GLM-Z1-AirX API分析SQL代码的语法问题、注入风险、性能问题等，最后解析返回结果。

所以prompt的设计比较关键，我是这样写的：

作为数据库专家，审查以下SQL代码，重点检查：SQL语法、注入风险、性能、代码规范、索引缺失、权限问题。按格式返回：[问题类型] [风险等级] [修复建议]。代码如下：\n\n{sql_code}

❞

代码审核的功能函数如下：

该应用支持的另一个核心功能是根据用户输入的自然语言自动生成SQL代码，而且支持用户提交表结构。

这样就能方便公司里那些对SQL不熟悉的同事，也能自己跑数据分析。

这个prompt相对简单：

请根据以下描述生成 SQL 查询语句，支持postgresql语言：\n\n{description}

❞

代码生成的功能函数如下：

设计好接口模块、代码审核模块、代码生成模块后，接下来就是使用flask将其封装为Web应用，并设计简洁的交互式界面和接口，方便可视化直接使用。

这里涉及到网页请求、响应、表单处理、UI设计等任务，就不一一讲解了。

最终实现的效果如下：

打开web应用，出现SQL代码审查、SQL代码生成两个功能选项。

点击代码审查，会出现代码审核窗口，支持提交SQL代码。

点击审查，该应用会将代码提交给GLM-Z1-AirX API接口，模型推理完成返回审查结果。

前面是推理思考的过程，你可以看到SQL代码审查的细节，最后会有结构化的审查结果。

该结果包括了问题总结，以及报警等级和改进建议。

可以看到这个审查的结果还是比较准确可信的，能减少人工审核的时间。

接下来再测试下SQL代码生成功能效果如何，你只需要根据查询需求自然语言提问即可，如果想更精准的话，需附上表结构。

该应用返回的结果如下：

按照我们提的查询需求，GLM-Z1-AirX返回的代码是完全可用的，而且响应速度极快。

如果要学习开源大模型，可以尝试用GLM-Z1-AirX这类的推理模型开发一些小应用，既能解决业务中的痛点，还是挖掘大模型更多的可能性。GLM-Z1-AirX兼具性能、速度、成本等优势，适合个人开发者和中小公司，或者是免费版GLM-Z1-Flash也很香，能无限制调用，赶紧试试。

智谱现在的AI研发和产品能力不可小觑，看新闻说OpenAl在刚刚发布的GPT-4.1系列模型中评测其函数调用能力时采用了智谱提出的ComplexFuncBench，这是专用于评估大模型复杂函数调用能力的测试基准，说明智谱的研究成果受到国际认可，十分难得。

来源：那谁家De大谁的Vlog一点号

标签：模型推理 api sql api接口

本文地址：https://news.43u.com.cn/a/1284896.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐