摘要:今年 2 月,字节跳动举办了全体员工会,公司 CEO 梁汝波提出了 2025 年的重点目标:探索新的交互。而梁汝波这一对「新的交互」产品定义与形态表述,直指 AI 眼镜。
文/VR陀螺 冉启行
“新的交互应该是更可穿戴、更便携、更自然的。”
今年 2 月,字节跳动举办了全体员工会,公司 CEO 梁汝波提出了 2025 年的重点目标:探索新的交互。而梁汝波这一对「新的交互」产品定义与形态表述,直指 AI 眼镜。
为了践行这一目标,字节跳动于 2024 年收购了耳机品牌 Oladance (深圳市大十未来科技有限公司),并于同年推出 AI 智能体耳机 Ola Friend,开始探索 AI 硬件。
事实上,Ola Friend 在市面上并未掀起太大风波,毕竟无线耳机这一品类在市面上已相当成熟,不仅市场增量有限,且市场竞争激烈,面对众多手机厂商、音频厂商,光一个 AI 智能体概念加持却是很难撬动市场。
而字节跳动的下一款 AI 硬件——「多模态 AI 眼镜」,或能凭借字节跳动的一系列业务生态深度协同,成为下一个 Ray-Ban Meta。
AI眼镜,字节跳动下一张硬件王牌?
多方消息已证实,字节跳动正积极推进自研 AI 眼镜项目。据报道,字节跳动自去年起就开始研发 AI 眼镜项目,公司已招聘具备硬件设计经验的工程师参与开发。目前,字节跳动正在优化电池续航与摄影上的性能平衡,确保在不牺牲过多电池的前提条件下,让眼镜能够拍摄出高质量的影像。
与此同时,字节跳动已开始与供应链厂商接洽,就产品功能、技术规格、成本控制及发布时间进行商谈。尽管具体的上市时间和销售区域尚未确定,但这系列动作表明,字节跳动的 AI 眼镜计划已远超概念阶段,进入了实质性的研发与落地筹备期。
从目前透露的信息来看,这款AI眼镜的核心定位将是 AI 能力的延伸与视觉交互的实现。它预计将深度集成字节自研的豆包大模型的部分 AI 功能,在 Ola Friend 的语音交互基础上,增加视觉维度的信息输入与处理能力。
具体配置方面,早前,据 XR Vision Pro 援引知情人士称,字节在研的 AI 眼镜或考虑采用恒玄 2800+研极微的 ISP 芯片方案。恒玄 2800 芯片是一块主控芯片,但鉴于眼镜拍摄等需要,还需要外挂一块 ISP 芯片。据称,该解决方案相比于高通 AR1 芯片具备高性价比,低功耗长续航的特点。
调校 ISP 芯片虽然也可以达到接近于高通 AR1 实现的拍摄效果,但对于厂商而言,图像与视频算法的调校困难度并没有想象中容易。目前,市面上也有不少直接采用系统级 SoC 芯片 AR1、W517 的 AI 眼镜,以及相关厂商 demo。整体来看,图像拍摄效果参差不齐,部分图像、视频效果表现能力较弱。
一方面,出于可穿戴产品设计考虑,AI 眼镜本身可用空间较小,电池小,较难塞下大底 CMOS 图像传感器与高性能 ISP 芯片;另一方面,区别于手机、相机等拥有可视化拍摄预览界面的硬件,AI 眼镜的拍摄完全依赖于硬件本身+软件算法的优化,不存在所谓的对焦、调整曝光等人为操作,拍摄变成了完全的「智能化处理」。
如何针对不同的光线条件下,精准且迅速地优化软件算法,以确保在强光直射、昏暗室内、逆光等复杂光线场景中,都能让 AI 眼镜拍摄出清晰、色彩还原度高且细节丰富的影像,对于 AI 眼镜厂商而言,这是一道道难题。
产品售价方面,尽管目前的 BOM 成本价格可以可控制在千元以内。不过,按照字节跳动目前较为保守的商业策略,Ola Friend 都售价 1199 元,AI 眼镜最少也得接近 2000 元,很难再回到 PICO 那个全面砸钱、砸流量、砸资源堆人气的时代了。
豆包大模型,需要一款AI硬件
事实上,字节跳动 AI 硬件布局背后,是其自研大模型“豆包”的落地的需求。字节需要自己的 AI 硬件,进一步开疆拓土,而不仅仅是在「能力受限」的软件产品上尬舞。
公开资料显示,字节跳动大模型团队于 2023 年 2 月开始组建,分别在语言和图像两种模态上发力,由 TikTok 产品技术负责人朱文佳带队。 2023 年 8 月,字节自研的底层大模型“云雀”上线,随即推出 AI 对话软件产品“豆包”。
在用户数据表现方面,截至 2024 年 11 月,豆包 APP 月活跃用户数已接近 6000 万,成为中国用户规模最大的 AI Chatbot。豆包的成功,这主要得益于字节跳动强大的生态导流能力,特别是在抖音等内容平台的钞能力 KOL 宣发上(不卡流、卡审版),为其迅速打开市场、积累大量初始用户奠定了坚实基础。
当然,历经两年的不断迭代,豆包在大模型本身的能力其实也已实现了阶级式跨越、追赶,在一定程度证明了大象也能跳舞。其最新发布的豆包 1.5 深度思考模型采用了 MoE(Mixture of Experts)架构,总参数达到 200B,但激活参数仅为 20B。与业界同类模型相比,豆包 1.5 的参数规模降低了 50%。
据介绍,该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。其在数学推理 AIME 2024 测试得分追平 OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近 o1。
对一款 AI 硬件而言,AI 大模型本身的能力十分重要,而目前的豆包大模型显然已经具备了较为强大的多模态能力。 从文本、图像、音频到视频皆有较强的交互,既能‘看见’,又能‘思考’”,基于 AI 眼镜第一人称视角的佩戴属性,有望催生出更高效的应用场景。不过,需要注意的是,眼镜与手机、电脑不同的是,它算力有限、续航有限,要在 50g 以内的眼镜中打造极致 AI 体验,难度不小。
于字节而言,通过深入用户日常生活的可穿戴设备,其可以收集到更多真实的、多模态的交互数据(视觉、听觉、语音、可能还有位置和运动信息),这些数据对于训练更强大的、能够理解物理世界的下一代 AI 至关重要。这形成了一个良性循环:当前的硬件为未来的 AI 研究提供数据和场景,而 AI 研究的突破又将反哺硬件,催生出功能更强大、交互更自然的智能设备。
场景为王:「AI眼镜直播」或能引爆市场
技术和硬件的进步固然重要,但决定 AI 眼镜能否真正走向大众、成为下一代计算平台的关键,在于能否找到并落地足够有吸引力的应用场景。
在 AI 眼镜发展的初期阶段,各大厂商都在追求大而全的功能,以满足不同消费的应用需求,如 AI 识物、AI 翻译、AI 语音助理、AI 听音乐等等。不过,基于每家厂商各自的能力不同,AI 眼镜所附带的具体功能也有所差别。
而字节跳动本身的优势与 Meta 类似,相对于其他厂商而言,其核心优势在于自家内容平台可调用权限,包括但不限于抖音、今日头条、西瓜视频、懂车帝等。基于这些内容平台,字节跳动一方 AI 眼镜可以做到第一人称视角的 AI 眼镜直播。
VR陀螺此前早前了解到,在 AI 眼镜上做直播并非易事,因为内容平台通常不会直接把直播接口开放给除手机以外的设备厂商。此外,手机厂商也不会轻易开放权限,让第三方 AI 眼镜厂商的 APP 来调用手机内的其他软件功能。一个可行的解决方案在于厂商做第云端功能集成,如模拟手机环境,自定义直播各选项功能等,在不考虑延迟的条件下,整体技术难度都相当复杂。
所以,字节跳动做 AI 眼镜拥有这一较大的差异化场景能力。
第一视角(First-Person View, FPV)直播,对于拥有抖音这一超级内容平台的字节跳动而言,无疑具有独特的战略价值和爆发潜力。相关数据统计,抖音月活跃用户已达 7.66 亿,作为一个 UGC 平台,人人都是创作者,即使只有一小部分涌入 AI 眼镜直播,其数据也是不可估量的。
AI 眼镜+直播优势明显:
第一人称视角体验: FPV 直播带来的“所见即所得”的第一视角,能够极大地增强直播内容的真实感、临场感和沉浸感。对于创作者而言,无论是分享旅行见闻、烹饪过程、户外探险、才艺展示、直播带货还是进行现场报道等,AI 眼镜都能提供一种极其便捷、自然的拍摄方式。解放双手,提高生产力: 传统的直播方式往往需要手持手机或架设相机,限制了主播的活动自由和互动性。 AI 眼镜的佩戴特性可以彻底解放双手,让主播可以更专注于当下的活动和与观众的交流,从而催生出更多元、更生动、更具互动性的直播内容。对于抖音平台上的数百万内容创作者而言,能够制作出与众不同、更具吸引力的直播内容,将是购买字节跳动 AI 眼镜的强大动力。对普通用户而言,体验喜爱主播的第一视角直播的 AI 眼镜,也可能成为购买的理由,抖音预计将成为其 AI 眼镜硬件销售的关键应用场景和流量入口。
「绑定抖音」是字节跳动一定会走的市场策略,类似的推广其实在 PICO 上已经走过来了一遍,包括在抖音上实现 VR 直播、360 度全景视频展示、在 PICO 上实现刷抖音等等,旨在以差异化内容展现形式拉动硬件增长。
直播技术与平台软件集成,对于字节跳动而言并不是难点,难的是如何依靠 AI 眼镜做好一场直播,这需要考虑画面防抖、画质分辨率、网络延迟等,再加之眼镜本身电池较小,如何权衡二者关系,找到一个最佳平衡点。
「务实的浪漫」,好听,但绝不好做。
来源:VR陀螺