摘要:最新的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。即日起,所有用户可在阿里云百炼调用Qwen2.5-Turbo API,百万tokens仅需
11月20日消息,最新的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。即日起,所有用户可在阿里云百炼调用Qwen2.5-Turbo API,百万tokens仅需0.3元。
此前阿里集团发布财报后的电话会议上,谈到阿里云的支出问题时,阿里巴巴集团CEO吴泳铭明确表示,大家还会看到“通义千问”模型的API token上的持续降价,也会看到我们将在平台的推理服务、算力服务上做更多让利。AI业务,或者说行业对AI的需求还是处在非常早期的阶段。因此,在这个领域,阿里云还是会持续地从拓展用户的角度去确定产品价格。
关于API token降价,吴泳铭表示,很多新用户会因为这些降价来使用阿里云的模型,用户在使用这个模型时,他们会非常自然地将应用部署在平台上面,这也会促使用户用到阿里云的其他云产品,比如计算、存储或者数据库等产品。
“相对来说,大家可以把我们‘通义千问’模型的API token降价理解为促进用户增长,或者说获取更多用户的手段。”
据了解,此次发布的最新的Qwen2.5-Turbo,在1M长度的超长文本检索(Passkey Retrieval)任务中的准确率可达到100%,在长文本评测集RULER上获得93.1分,超越GPT-4;在LV-Eval、LongBench-Chat等更加接近真实场景的长文本任务中,Qwen2.5-Turbo在多数维度超越了GPT-4o-mini;此外,在MMU、LiveBench等短文本基准上Qwen2.5-Turbo的表现也非常优秀,在大部分任务上的表现显著超越之前上下文长度为1M tokens的开源模型。
Qwen2.5-Turbo在长文本、短文本任务评测集上均表现优秀
在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。
Qwen2.5-Turbo推理速度可提升4.3倍
Qwen2.5-Turbo可应用于长篇小说深入理解、仓库级别代码助手、多篇论文阅读等场景,可一次性处理10本长篇小说,150小时的演讲稿,3万行代码。针对该模型,阿里云百炼免费为用户赠送1000万tokens额度。
该团队表示,长文本任务处理依然存在诸多挑战,未来将进一步探索长序列人类偏好对齐,优化推理效率以减少运算时间,并继续研发更大、更强的长文本模型。
据介绍,阿里云百炼已上线Qwen、Llama、Flux等超200款国内外主流开源和闭源大模型,用户可选择直接调用、训练微调或打造RAG应用。目前,一汽、金山、哈啰集团、国家天文台等超30万企业和机构在使用阿里云百炼。
阿里巴巴集团CEO吴泳铭在最新的财报电话会议上说,从目前客户的短期需求上来看,无论是AI的算力,还是AI的API服务,用户需求还是在持续爆发的,客户的需求也处于“并不能很好满足”的阶段。“因此,我们在AI的投入上相对来说确实比较激进。”
“另外,我们要考虑到这一波生成式AI技术的发展确实是难得一见的。这对于技术行业来说可能是一个历史性机遇,甚至可以说是二十年一遇的技术革新。从这个角度来看,无论是当前模型能力所需的推理服务,还是这些模型在各行各业的应用,我们看到各行各业的应用都在逐步展开,用户的需求还是非常确定的。同时,我们也看到像OpenAI最新的Orion模型在所谓的思维链技术上的应用,可以说行业未来对推理需求的算力还是有相当大数量级的需求提升。基于这样的技术预判,我们会在AI的算力基础设施建设上做提前的投入。”吴泳铭说。
来源:周到客户端一点号