字节跳动豆包视觉模型革新:低成本高效能,解锁视觉AI新纪元

摘要:此次发布的豆包视觉理解模型,以极低的成本为企业提供强大的多模态大模型能力。具体而言,该模型每千个tokens的输入价格仅为3厘,这意味着一元钱便能处理约284张720P分辨率的图片,相较于行业平均水平,价格降低了85%。这一突破性的定价策略,无疑将极大地推动视

近日,字节跳动在火山引擎Force大会上宣布,视觉理解模型正式迈入“厘时代”,为企业带来前所未有的性价比优势。

此次发布的豆包视觉理解模型,以极低的成本为企业提供强大的多模态大模型能力。具体而言,该模型每千个tokens的输入价格仅为3厘,这意味着一元钱便能处理约284张720P分辨率的图片,相较于行业平均水平,价格降低了85%。这一突破性的定价策略,无疑将极大地推动视觉理解技术的普及与应用。

视觉作为人类获取信息的主要渠道,其重要性不言而喻。豆包视觉理解模型的推出,不仅拓展了大模型的能力边界,还降低了人们与大模型交互的门槛,为解锁更多应用场景提供了可能。据火山引擎总裁谭待介绍,豆包视觉理解模型不仅能够精确识别视觉内容,还具备卓越的理解和推理能力,能够完成分析图表、处理代码、解答学科问题等复杂任务。该模型在视觉描述和创作方面也展现出细腻的能力。

在大会现场,豆包3D生成模型也首次亮相。这款模型与火山引擎的数字孪生平台veOmniverse结合使用,能够高效地完成智能训练、数据合成和数字资产制作,成为一套支持AIGC创作的物理世界仿真模拟器。这一创新成果,无疑将进一步推动AIGC领域的发展。

除了视觉理解模型外,豆包大模型的多款产品也迎来了重要更新。豆包通用模型pro已全面对齐GPT-4,但使用价格仅为后者的1/8。音乐模型则从生成60秒的简单结构,升级到能够生成3分钟的完整作品。文生图模型2.1版本则实现了精准生成汉字和一句话P图的产品化能力,并已接入即梦AI和豆包App。

字节跳动表示,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台。来自智能终端的豆包大模型调用量在半年时间内增长了100倍。与企业生产力相关的场景,豆包大模型也获得了企业客户的大力支持。在最近3个月内,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有显著增长。

谭待认为,豆包大模型市场份额的快速增长,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念。这一理念让AI成为每一家企业都能用得起、用得好的普惠科技。为了帮助企业更好地构建自身的AI能力中心,高效开发AI应用,火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品。

其中,火山方舟发布了大模型记忆方案,并推出了prefix cache和session cache API,以降低延迟和成本。同时,火山方舟还带来了全域AI搜索服务,具备场景化搜索推荐一体化、企业私域信息整合等功能。这一系列的创新举措,无疑将进一步推动AI技术的发展和应用。

火山引擎认为,随着大模型时代的到来,云计算的变革也在加速进行。基于AI云原生的理念,火山引擎推出了新一代计算、网络、存储和安全产品。这些产品通过优化计算和存储效率、提升网络性能以及加强安全保障,为企业提供了更加高效、可靠、安全的AI服务。

来源:ITBear科技资讯

相关推荐