摘要:其一是这一年在To B领域高歌猛进的阿里,另一个则是在To C领域各种产品不断上新的字节。
作者 | 山竹
出品 | 锌产业
如果要问谁是大模型领域未来夺冠的热门选手,我认为至少会有两个:
其一是这一年在To B领域高歌猛进的阿里,另一个则是在To C领域各种产品不断上新的字节。
就在今天,在OpenAI的12场AI线上“座谈会”持续更新中,字节也对豆包进行了更新发布。
在产品发布之前,字节先是通过视频展示了豆包视觉识别能力,可以识别桌面上的物体、可以识别电脑屏幕上的代码、可以看懂你的体检报告。
在这个视频中,豆包甚至可以帮你搞定衣服穿搭、外出指南等一天内的诸多琐事。
这就是这次发布会的重头戏,豆包视觉理解模型。
01 视觉大模型,是AI生产力关键
自今年5月正式发布后,发布仅7个月(截止12月15日),日均调用量就达到了4万亿次,这是火山引擎总裁谭待给出的豆包大模型日均调用最新数据。
7个月里,豆包大模型日均调用量增长了33倍,这样的增速既有全世界对于大模型的关注度,也有大模型“投流”的广告大战。
此前钛媒体的一份统计数据显示,截止10月29日,kimi 智能助手、字节跳动豆包、腾讯元宝等所有 AI 应用10月全网广告投放(投流)支出超过3亿元人民币。
其中,在10月“投流”花费相对较少的豆包,也支出了2200万元。
这也是为什么大家在2024年对大模型的感知度这么高的一个主要原因,也是这些大模型能够有如此高的增速的一个主要原因。
如此巨额的投资,想要通过用户订阅来做到商业闭环,自是不现实。
毕竟相较于OpenAI将订阅费从20美元/月提升到200美元/月,乃至正在计划的2000美元/月的高级版本,国内大模型依然处于通过价格战收拢用户阶段。
于是,面向更实际商业场景提供服务就成了一个重要的商业模式。
针对这次重点发布的豆包视觉理解模型,谭待重点介绍的正是在面向商业场景的应用。
关于为什么做视觉理解模型,谭待给出的解释是,“只有做好视觉模型,才能让模型有能力处理好真实世界的信息,辅助人类完成一系列复杂工作。”
据谭待介绍,豆包视觉理解模型特别强调三项能力:
第一,内容识别能力。
豆包视觉理解模型不仅可以识别出图像中的物体类别、形状等要素,还能理解物体之间的关系、空间布局和场景的整体含义。
例如豆包视觉理解模型可以通过猫的影子识别出镜子前的动物是猫。
第二,理解和推理能力。
豆包视觉理解模型不仅可以识别内容,还可以根据识别的文字和图像信息进行复杂的逻辑计算。
例如豆包视觉理解模型可以理解图片中的问题,能够根据提示词进行对应的推理计算,给出数学和物理题目的答案和思路。
第三,视觉描述和创作能力。
豆包视觉理解模型有视觉描述和创作能力,可以为一款文创产品写出对应的祝福语。
据谭待透露,在过去两个月里,火山引擎已经邀请了数百家企业对豆包视觉理解模型进行了测试,并找到了不少有价值的应用场景。
02 视觉大模型进入厘时代
在大会现场,谭待重点介绍了豆包视觉理解模型在教育、旅游、电商三大应用场景中的应用:
在教育场景,豆包视觉理解模型可以优化传统的拍照搜题功能,也可以进一步对孩子的作业进行批改和针对性辅导,例如帮助孩子优化作文。
在旅游场景,豆包视觉理解模型可以帮我们在国外点菜时看外文菜单,当我们参观一些知名建筑或景点时,它也可以告诉我们这些建筑和景点的背景知识。
在电商场景,豆包对于商家想要推销的商品,根据它的产品特性生成对应的营销和直播话术。
此外,在诸如金融、医疗、教育、建筑、体育、物流等更多行业,火山引擎也正在探索豆包的场景应用可能。
2024年,国内大模型在价格战的推动下迎来了一波市场下沉,这波价格战的源头正是今年5月豆包的大幅降价。
彼时,豆包主力模型在企业市场的定价为0.0008元/千Tokens,由此引起了大模型的价格战。
用谭待的话说就是,“我们把整个行业的价格降低了99%,降低到了一个合理的水平。”
这次,火山引擎想要再次将视觉模型价格打下来,定价为0.03元/千Tokens。
谭待说,今天视觉理解模型也将正式进入到了厘时代。
来源:伊伊说生活