字节跳动推动大模型价格普惠加速多模态应用落地

摘要：“一元钱就可处理284张720P的图片。”“随手拍一张黄昏美景，大模型就可以帮你创作一首有古朴韵味的诗。”字节跳动日前正式发布了豆包视觉理解模型，不仅比行业价格降低降低了85%，而且功能更加全面和强大。豆包视觉理解模型在企业市场的定价只有0.0003元/千To

“一元钱就可处理284张720P的图片。”“随手拍一张黄昏美景，大模型就可以帮你创作一首有古朴韵味的诗。”字节跳动日前正式发布了豆包视觉理解模型，不仅比行业价格降低降低了85%，而且功能更加全面和强大。豆包视觉理解模型在企业市场的定价只有0.0003元/千Tokens，此次价格普惠，推动了AI技术普惠和应用发展，让企业可以放心大胆地去做大模型应用创新。

多模态交互大模型加速促进AI应用

研究显示，人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

火山引擎总裁谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

图为火山引擎总裁谭待

例如，豆包不仅可以让传统的拍照搜题更加智能，还可以进一步对孩子的作业进行批改、帮助孩子优化作文等；参观知名建筑，不仅可以让豆包告诉背景知识，还能准确识别建筑上的各种文字并告知含义；电商商家可以通过豆包构建多模态AI搜索与推荐方案，帮助用户方便的找同款，推荐适合的搭配，让顾客的购物体验升级。

据了解，今年5月，火山引擎正式发布了豆包大模型家族之后，凭借着更强的模型能力，更低的应用成本和更易落地的解决方案，豆包大模型在各行各业都得到了广泛的应用。数据显示，5月份，模型日均tokens 1200亿，到7月份涨到了5000亿，到9月份达到1.3万亿。而截止到12月15日，豆包大模型的日均tokens数已经突破了4万亿，在7个月的时间里增长超过33倍。

业内人士表示，生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

大模型应用加速落地

随着功能的强大和成本的降低，大模型应用正在向各行各业加速渗透。据悉，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

数据显示，最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

例如，在汽车领域，梅赛德斯-奔驰与火山引擎达成战略合作，在大模型、生成式人工智能和大数据等前沿技术领域开展合作和探索，包括提升智舱信息检索能力、提升智舱系统反应速度、扩展智能应用场景、提升智舱研发速度。上汽乘用车通过引入豆包大模型技术，在服务反馈、热点事件跟踪和质量改进等领域取得显著成效，为用户带来了更加优质的体验和服务。

同时，南开大学运用火山引擎的AI大模型技术，实现了个性化学习路径推荐、快速科研文献搜索分析及智能化服务管理，显著提升了教学质量、科研效率和管理服务水平。招商银行依托扣子平台打造的“掌上生活优惠”与“财富看点”两款金融智能助手在豆包APP上线，通过自然流畅的语言交互，为用户带来了包括生活优惠查询、办卡指南、卡片权益解读、市场行情分析、资产配置建议等在内的一系列智能化、个性化的服务。

谭待表示，豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为每一家企业都能用得起、用得好的普惠科技。

“豆包”加速迭代

在公布豆包视觉理解模型的同时，火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。其中，火山方舟发布了大模型记忆方案，并推出prefix cache和session cache API，降低延迟和成本。火山方舟还带来全域AI搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

同时，豆包大模型多款产品也迎来重要更新。豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

另外，基于AI云原生的理念，火山引擎推出了新一代计算、网络、存储和和安全产品。在计算层面，显著提升训练和推理效率，降低成本；在存储上，新推出的EIC弹性极速缓存，使推理时延降低至1/50、成本降低20%；在安全层面，火山将推出PCC私密云服务，企业能够实现用户数据在云上推理的端到端加密。

据介绍，具备更长视频生成能力的豆包视频生成模型1.5版将于2025年春季推出，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。

“豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。”谭待表示，今年是大模型高速发展的一年。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。（记者李志勇）

声明：此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：jpbl@jp.jiupainews.com

来源：九派快讯一点号

标签：模型模态普惠

本文地址：https://news.43u.com.cn/a/267393.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!