谷歌发布Gemini 2.5 Flash Lite：生成速度最高超400tokens/每秒！

摘要：本文原文来自DataLearnerAI官方博客：Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！ | 数据学习者官方网站(Datale

本文原文来自DataLearnerAI官方博客：Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！ | 数据学习者官方网站(Datalearner)

今天，Google AI领域再次迎来重磅更新！GoogleGemini 2.5的2个模型（Gemini 2.5 Pro和Gemini 2.5 Flash）正式转正，去掉了preview的标签。虽然这两个模型从预览版转为正式版，并未带来参数层面的变化，但真正的惊喜在于一个全新的成员：Gemini 2.5 Flash Lite。

这是一款专为追求极致速度、超低延迟和高性价比场景打造的轻量级模型。它的发布标志着 Google 正在将旗舰模型的先进能力（如百万级上下文、原生多模态、工具调用等）逐步下放到更轻量、更经济的模型层级。对于广大开发者和企业来说，这无疑是一个非常强大的消息！

根据 DataLearnerAI 的实测，这款模型的生成速度最高可达 400 tokens/秒，即使在输入达到 18K tokens 的情况下，也依然可以维持在 160+ tokens/秒 的性能表现，令人惊喜。

Gemini 模型家族概览：Gemini 2.5全线阵容Gemini 2.5 Flash-Lite模型核心特点Gemini 2.5 Flash Lite的推理速度最高可以达到400 tokens/秒Gemini 2.5 Flash Lite评测超越上一代的Gemini 2.0 Flash总结

在深入了解Gemini 2.5 Flash Lite之前，我们首先需要明确它在整个Gemini 2.5家族中的定位。根据官方技术报告，目前的Gemini家族产品线覆盖了从顶级性能到极致性价比的完整“帕累托前沿 (Pareto frontier)”，满足不同应用场景的需求。

这里所谓的“帕累托前沿”应是引用自经济学中的一个概念，指的是在多目标优化中无法在不牺牲某一目标的前提下提升另一目标的一组最优解。谷歌官网给出的的图表展示了多个 Gemini 模型与其它模型在这价格和性能上的对比：即在每一个给定的成本水平下，Gemini 系列总有一个模型达到了当下能实现的最优性能。因此，我们可以理解为：Gemini 产品线在性能与价格的权衡上，构建了一条覆盖广泛、无明显短板的最优解曲线。

下表是当前Google Gemini系列模型的总结：

特性Gemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash-LiteGemini 2.0 FlashGemini 2.5 FlashGemini 2.5 ProGemini 2.5 Flash-Lite输入模态文/图/音/视频文/图/音/视频文/图/音/视频文/图/音/视频文/图/音/视频文/图/音/视频文/图/音/视频

从表格中可以清晰地看到，Gemini 2.5 Flash Lite继承了2.5系列的核心能力，包括100万Token的超长上下文窗口、原生的多模态理解、以及强大的“Thinking”和工具调用能力。它的定位非常明确：在保持这些前沿特性的同时，提供比Gemini 2.5 Flash更极致的成本和速度优势。

作为本次更新的焦点，Gemini 2.5 Flash-Lite（模型ID: gemini-2.5-flash-lite-preview-06-17）带来了几个关键特性，使其成为特定应用场景的理想选择。

超低延迟与高吞吐量: 这是Flash-Lite最核心的优势。官方报告指出，其目标是提供一个“提供超低延迟能力和每美元高吞吐量的经济型模型类别”。这意味着在需要快速响应的交互式应用（如聊天机器人、实时内容审核、智能体快速决策）中，Flash-Lite将表现出色。继承核心高级功能: 它并非一个被阉割的基础模型。它完整保留了2.5家族的关键能力：思考能力 (Thinking): 与2.5 Pro/Flash一样，它可以选择在推理时花费额外的计算资源进行更深入的思考，以获得更准确的答案，并且这一能力是“可控的”，允许开发者根据成本和质量需求进行权衡。强大的工具连接性: 支持连接到Google Search和代码执行器等外部工具，使其能够处理实时信息和执行复杂任务。原生多模态与百万上下文: 能够直接处理文本、图像、音频和视频的混合输入，并且上下文窗口长达100万Token，这在同等量级的模型中极为罕见。

不过，这里DataLearnerAI发现了一个bug，其实谷歌上一代的Gemini 2.0 Flash Lite其实是涨价了，它目前的价格其实和Gemini 2.0 Flash一样！

因此，价格方面，应该是如下顺序：Gemini 2.5 Flash > Gemini 2.5 Flash Lite = Gemini 2.0 Flash > Gemini 2.0 Flash Lite，如下图所示：

Gemini 2.5 Flash和Gemini 2.0 Flash系列模型价格对比，数据来源：可视化AI大模型对比 | DataLearnerAI

不得不说，Google还是有点鸡贼的。

Gemini模型的速度一直不错，但是可能很多人没有直观的了解。在这里，我们展示一下ArtificialAnalysis.ai官网的对比情况：

与OpenAI o系列模型、Claude Sonnet和DeepSeek模型对比，Gemini的速度非常快，而2.5系列似乎更强，Gemini 2.5 Flash甚至比上一代的Gemini 2.0 Flash Lite更快。

而根据DataLearnerAI的实测，Gemini 2.5 Flash Lite模型速度更上一层楼。我们测试了两个case，一个是简短的prompt生成网页，一个是超大的prompt写博客：

任务类型输入 Tokens输出 Tokens耗时（秒）速度（Tokens/s）写博客/技术报告18887346113.8≈ 169

可以看到，第一种情况，Gemini 2.5 Flash Lite生成的速度达到了428 tokens/s！非常恐怖！而即使输入接近19K的第二种情况，模型的生成速度也达到了169 tokens/s，可以说非常令人满意了。

当然，我们这里也展示一下第一个网页只做的效果（Prompt其实很简单，就是要求为DataLearnerAI生成一个单网页，展示最新模型列表）：

应该是还是很漂亮的，比较满意！

Google官方给出了Gemini 2.0 Flash Lite的评测结果，可以说，虽然价格与Gemini 2.0 Flash一样，但是它的评测结果是略高于前代的模型的。

Gemini 2.5 Flash和Gemini 2.0 Flash系列模型评测对比，数据来源：https://www.datalearner.com/ai-models/pretrained-models-compare-result?modelIds=556,592,484,497

编码能力: 在 LiveCodeBench 和 SWE-bench Verified 等编码基准测试中，Gemini 2.5 Flash Lite 预计也能展现出优于前代 Flash Lite 模型的性能，甚至可以与早期的 Pro 版本媲美。其能够理解和生成代码的能力，使其在自动化编码辅助、代码生成等领域具有广阔的应用前景。数学与推理: 在 AIME 2025 和 GPQA (diamond) 等数学和推理基准测试中，虽然可能不如 Gemini 2.5 Pro 那样顶尖，但 Gemini 2.5 Flash Lite 预计也能提供比前代模型更强大的表现，为解决需要逻辑推理和数学计算的问题提供支持。事实性: 在 SimpleQA 和 FACTS Grounding 等事实性评估中，Gemini 2.5 Flash Lite 得益于其长上下文处理和潜在的工具调用能力，有望提供更准确、更可靠的答案。

此次Google的更新，核心亮点不仅仅是将Gemini 2.5 Pro/Flash转正，更是通过发布Gemini 2.5 Flash-Lite，向市场传递了一个明确的信号：最前沿的AI能力正在加速普及化和商品化。而这样的生成速度和价格，的确是非常甜品了。

来源：数据学习DataLearner

标签： gemini 谷歌 flash lite flashlite

本文地址：https://news.43u.com.cn/a/2058285.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!