字节跳动豆包视觉模型革新：低成本高效能，解锁视觉AI新纪元

摘要：此次发布的豆包视觉理解模型，以极低的成本为企业提供强大的多模态大模型能力。具体而言，该模型每千个tokens的输入价格仅为3厘，这意味着一元钱便能处理约284张720P分辨率的图片，相较于行业平均水平，价格降低了85%。这一突破性的定价策略，无疑将极大地推动视

近日，字节跳动在火山引擎Force大会上宣布，视觉理解模型正式迈入“厘时代”，为企业带来前所未有的性价比优势。

此次发布的豆包视觉理解模型，以极低的成本为企业提供强大的多模态大模型能力。具体而言，该模型每千个tokens的输入价格仅为3厘，这意味着一元钱便能处理约284张720P分辨率的图片，相较于行业平均水平，价格降低了85%。这一突破性的定价策略，无疑将极大地推动视觉理解技术的普及与应用。

视觉作为人类获取信息的主要渠道，其重要性不言而喻。豆包视觉理解模型的推出，不仅拓展了大模型的能力边界，还降低了人们与大模型交互的门槛，为解锁更多应用场景提供了可能。据火山引擎总裁谭待介绍，豆包视觉理解模型不仅能够精确识别视觉内容，还具备卓越的理解和推理能力，能够完成分析图表、处理代码、解答学科问题等复杂任务。该模型在视觉描述和创作方面也展现出细腻的能力。

在大会现场，豆包3D生成模型也首次亮相。这款模型与火山引擎的数字孪生平台veOmniverse结合使用，能够高效地完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。这一创新成果，无疑将进一步推动AIGC领域的发展。

除了视觉理解模型外，豆包大模型的多款产品也迎来了重要更新。豆包通用模型pro已全面对齐GPT-4，但使用价格仅为后者的1/8。音乐模型则从生成60秒的简单结构，升级到能够生成3分钟的完整作品。文生图模型2.1版本则实现了精准生成汉字和一句话P图的产品化能力，并已接入即梦AI和豆包App。

字节跳动表示，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台。来自智能终端的豆包大模型调用量在半年时间内增长了100倍。与企业生产力相关的场景，豆包大模型也获得了企业客户的大力支持。在最近3个月内，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有显著增长。

谭待认为，豆包大模型市场份额的快速增长，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念。这一理念让AI成为每一家企业都能用得起、用得好的普惠科技。为了帮助企业更好地构建自身的AI能力中心，高效开发AI应用，火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品。

其中，火山方舟发布了大模型记忆方案，并推出了prefix cache和session cache API，以降低延迟和成本。同时，火山方舟还带来了全域AI搜索服务，具备场景化搜索推荐一体化、企业私域信息整合等功能。这一系列的创新举措，无疑将进一步推动AI技术的发展和应用。