豆包视觉理解模型定价进入“厘时代”，比行业均价低85%

摘要：“豆包视觉理解，我们的定价是每千tokens3厘钱，比行业平均价格降低85%。这个价格代表什么？一块钱可以处理284张720P的图片。”在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，火山引擎总裁谭待宣布了视觉理解模型的价格

“豆包视觉理解，我们的定价是每千tokens3厘钱，比行业平均价格降低85%。这个价格代表什么？一块钱可以处理284张720P的图片。”

在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，火山引擎总裁谭待宣布了视觉理解模型的价格。继大语言模型价格以厘计算之后，视觉理解模型也宣告进入“厘时代”。

火山引擎总裁谭待。

每千tokens定价比行业均价低85%

今年5月，火山引擎正式发布了豆包大模型家族。此后，豆包大模型的日均调用量也在高速的增长。据谭待披露，5月份的时候，模型日均tokens 1200亿；到7月份涨到了5000亿，到9月份1.3万亿；而截至上周日，12月15号，豆包大模型的日均tokens数已经突破了4万亿，在7个月的时间里增长超过33倍。

在发布大半年后，豆包大模型也迎来全面升级。会上，谭待发布了豆包视觉理解模型。据总裁谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

谭待在现场展示了多个例子，例如给视觉理解模型发布一张风景图片并提问，模型能识别出这是丁达尔效应并解释背后的原理；给模型发布一张高考物理题的图片，模型可以给出详细完整的分析和答案。

研究显示，人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

谭待透露，在过去两个月里，已经邀请了数百家企业对豆包视觉理解模型进行了测试，也看到了不少有价值的场景，“比如在教育场景，豆包不仅可以让传统的拍照搜题更加智能，还可以进一步对孩子的作业进行批改，或者帮助孩子优化作文等等；电商营销也一个非常实用的场景，利用豆包视觉理解模型的强大能力，商家可以通过模型能力构建多模态AI搜索与推荐方案，帮助用户方便的拍照找同款；还可以基于已购买的商品，推荐适合的搭配，让顾客的购物体验升级。商家想快速上架商品，发布营销活动文案，通过豆包视觉理解模型，效率都会大大提升。”

在公布定价时，谭待也对比了主流视觉模型的定价。如Claude的价格，是每千tokens两分一厘钱；GPT-4o的价格，是每千Tokens一分七厘；阿里的千问，价格是每千Tokens 2分钱。

“豆包视觉理解，我们的定价是每千tokens 3厘钱，比行业平均价格降低85%。这个价格代表什么呢？一块钱可以处理284张720P的图片。今天，视觉理解模型也正式走进厘时代，好模型就是要让每家企业都用得起。”谭待表示。

据了解，豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。为此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

豆包大模型多款产品也迎来更新

会上，豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

豆包大模型多款产品也迎来更新：豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

剪映业务负责人张楠在会上表示，生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化，“像做梦一样”。即梦希望成为“想象力世界”的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

剪映业务负责人张楠。

大会上正式宣告，2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。谭待表示，豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。

智能终端的调用量半年时间内增长100倍

谭待透露，与企业生产力相关的场景，豆包大模型也获得了众多企业客户青睐：最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

据悉，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

值得一提的是，12月19日，有传闻称苹果正与腾讯和字节跳动，就将这两家公司的 AI 模型整合至中国市场的iPhone进行初步谈判。对此，腾讯和字节跳动暂未回复。关于苹果在中国市场的iPhone到底要使用哪家企业的AI服务，此前还传闻过百度。

对于火山引擎在B端客户的竞争，谭待告诉南都记者，“从我的角度现在不太关心竞争，因为这个市场还在很早期，可能这个市场千分之一刚开发出来。这个时候不用关心竞争的问题，应该关心的是到底用户的需求有哪些没有被满足。”

对于在智能手机端的市场竞争，谭待表示，国内安卓手机品牌大部分都在和豆包合作，“手机的场景很多，所以对手机厂商来说，他会在某些场景用豆包，某些场景用其他的，或者某一个场景混合使用。对企业来说，肯定也需要一个多云或者多模型的策略，这个我觉得很正常。最终还是说你的能力更好、成本更低，他就会用谁，这笔账就很好算。”

在公布豆包视觉理解模型超低定价的同时，火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品，帮助企业构建好自身的 AI 能力中心，高效开发 AI 应用。其中，火山方舟发布了大模型记忆方案，并推出 prefix cache 和 session cache API，降低延迟和成本。火山方舟还带来全域 AI 搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

云原生是过去十年最重要的计算范式，大模型时代则推动着云计算的变革。火山引擎认为，下一个十年，计算范式应该从云原生进入到AI云原生的新时代。

谭待说：“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。”

采写：南都记者汪陈晨

来源：南方都市报一点号

标签：模型视觉豆包

本文地址：https://news.43u.com.cn/a/236985.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!