摘要:随着近日苹果一项国际专利的公开,Persona如何“仅靠Vision Pro一台设备的就可以精准还原人类”的秘密也随之被揭开。现在就让我们一起来了解这项新技术:
2024年1月,YouTube知名博主发布视频,其中有关于Vision Pro Facetime 虚拟人物Persona的首次展示。
与其他XR领域的虚拟形象不同,它不是卡通,也不是半拟人,而是近乎于完全写实的真实拟人形象,甚至包括了博主Brian Tong的刘海挑染细节。
当时最让人印象深刻的点在于Persona几乎可以还原所有的面部神态,甚至说话时的口型都非常精准,这让当时许多网友也留下了“惊艳”的评论。
随着近日苹果一项国际专利的公开,Persona如何“仅靠Vision Pro一台设备的就可以精准还原人类”的秘密也随之被揭开。现在就让我们一起来了解这项新技术:
EXPRESSION ESTIMATION FOR HEADSETS USING LOW-PROFILE ANTENNA AND IMPEDANCE CHARACTERISTIC SENSING(基于低剖面天线与阻抗特性传感的头戴式显示器用户表情估计)。
(注:本文对于一些学术语言会做类比和形容,并不代表技术就与类比百分百一模一样,只是为了方便理解。)
来吧!难点解谜!
先了解前提,大多数表情捕捉、眼动追踪都是通过头显向内(也就是向我们面部)或底部的各种传感器,配合算法解析还原来完成的。这一方法有一个弊端,就是在半遮面、戴口罩,或者光线昏暗的情况下,可用率不高。
要做到Vision Pro Persona那样对于微表情(抿嘴、微笑),甚至口型都能精准捕捉,现有的传感器捕捉显然能力不足。
所以苹果想了这个办法:EXPRESSION ESTIMATION FOR HEADSETS USING LOW-PROFILE ANTENNA AND IMPEDANCE CHARACTERISTIC SENSING(基于低剖面天线与阻抗特性传感的头戴式显示器用户表情估计)。
不管是中文还是英文,不做学术研究的我们读起来都挺费劲。还是沿用87君“科技解谜”惯用的拆分法,一个词一个词的理解。
整句话我们可以理解为,利用技术A和技术B,实现在Vision Pro中对于用户面部的追踪。
那么其中的技术A也就是低剖面天线是什么?我们可以理解为,它是一种天线的新型设计。比较经典的天线“皮肤”是喇叭型,即便很微小,也喇叭。
低剖面天线在设计上进行了突破,它是一种物理高度极低、结构扁平化的天线设计,以紧凑的外形实现电磁波的高效辐射或接收,尤其适用于空间受限的电子设备(如可穿戴设备、无人机、移动终端等)。粗暴点来理解,就是它是一个更容易装在VR头显里的片儿状天线。
在头显中也不乏广泛应用,比如无线串流、Inside-Out定位、全身动捕设备等等。Meta Quest(4组低剖面天线)、HTC VIVE Focus 3(FPC天线)也都用到了类似的设计。苹果Vision Pro强调了无外置可见天线,之前的专利中也曝光了它拥有“超材料贴片天线”:Antenna structures may be formed from stacked dielectric layers and metamaterial elements... integrated into the curved housing of a head-mounted device.(天线结构可由堆叠介质层和超材料元件构成……集成于头显设备的曲面外壳中)。
技术B,阻抗特性传感。指的是通过检测物体(比如人的皮肤、肌肉等)对电磁信号的反应——尤其是通过检测物体对信号的反射、吸收或改变,来感知这个物体状态变化。
我们可以把它理解成“听声辨位”,比如小时候你在家偷偷看电视,听见熟悉的脚步声,就知道老爸老妈到几楼了。或者在游戏里,听见脚步声,就知道敌人是从A小道上,还是走中门上B2。
阻抗特性传感也是类似的原理——设备发出无线电信号,这些信号碰到你脸或手上的皮肤、肌肉时,会因为组织的形状、密度、动作而“弹回来”的方式不同。设备就通过这些“回声”来判断你是在笑、说话、皱眉还是捂嘴。
所以,在回头来看,Vision Pro就是用低剖面天线这个物理部件,配合阻抗特性传感的技术,二者结合做了一个小发明,实现了对于Vision Pro用户面部表情的追踪。
防止你好奇,我们来看一段专利中的描述(可以不看!):
[0044] Figure 4A illustrates an exemplary view 400 in which a user 401 is wearing a headset device 405 enabled to analyze user facial gestures and/or expressions, in accordance with some implementations. Headset device 405 may comprise a same or similar headset device with respect to headset device 300 of figure 3A or headset device 330 of figure 3B and therefore may include an antenna 402a and an antenna 402b mounted to a bottom portion 417 of headset device 405. Headset device 405 may additionally comprise a vector network analyzer (VNA) 404, a battery 406, a communications module 408, and an impedance matching network 410. VNA 404, battery 406, communications module 408, and impedance matching network 410 may comprise externally mounted components as illustrated in figure 3A. Alternatively, VNA 404, battery 406, communications module 408, and impedance matching network 410 may comprise internally mounted components as illustrated in figure 3B.
图4A展示了一个示例视图400,其中用户401佩戴了一个能够分析用户面部手势和/或表情的头显设备405,符合某些实施方案的要求。头显设备405可能与图3A中的头显设备300或图3B中的头显设备330相同或相似,因此可能包括安装在头显设备405底部部分417上的天线402a和天线402b。头显设备405还可能包括向量网络分析仪(VNA)404、电池406、通信模块408和阻抗匹配网络410。VNA 404、电池406、通信模块408和阻抗匹配网络410可能是如图3A所示的外部组件,也可以像图3B所示那样是内部安装的组件。
Any configuration of internally mounted and externally mounted components may be implemented. Exemplary view 400 illustrates mouth 401a (or facial expression) of user 401 dielectrically and contactlessly interacting with antenna 402 such that changes in a mouth configuration may manifest as changes within self-resonance frequency and performance of the antenna 402. The changes may be measured by headset device 405 and a machine-learning pipeline and/or module may be configured to predict 11 3D key points for cheeks, lips, and tongue of user 401 as illustrated by the phase and magnitude plots 407 for the SI 1 and S21 parameters. Phase and magnitude plots 407 may be utilized, for example, to configuration a more expressive persona for telepresence uses thereby reducing privacy issues inherent in camera-based systems, while simultaneously supporting (silent) facial expressions that audio-based systems are unable to detect.
可以实现任何配置的内部和外部组件组合。示例视图400展示了用户401的嘴部401a(或面部表情),其与天线402以介电方式和非接触方式相互作用,从而嘴部配置的变化可能会表现为天线402自共振频率和性能的变化。这些变化可以通过头显设备405进行测量,并且机器学习管道和/或模块可以被配置为预测用户401的11个3D关键点,分别为颊部、嘴唇和舌头,如SI 1和S21参数的相位和幅度图407所示。相位和幅度图407可以用于例如配置一个更具表现力的虚拟形象(persona),以用于远程呈现,从而减少摄像头系统固有的隐私问题,同时支持音频系统无法检测到的(无声)面部表情。
技术简单,“精度”很难
不管是低剖面天线,还是阻抗特性传感都不算非常新鲜的技术,二者的结合也不是惊天地泣鬼神的大发明。妙处在于苹果对它的利用和掌控。
虽然大家都吐槽Vision Pro重,但相比于它的能力来说,并不算重。这种减重也得益于它对于内部空间的利用。
苹果在专利中提到了各种天线设计,像槽型天线(Slot Antenna)、U形天线、折叠天线等等,这些都是用了低剖面天线这个“皮肤”系列的不同“英雄”。苹果则是把这些天线能装的装,能塞的塞,不能塞的想办法折起来塞进去,最大程度上利用为数不多的内部空间,以提供更好的体验。
甚至利用“交叉极化”技术,放置多个方向不同的天线,从多个角度获取信号,减少干扰。
更特别的是,这套系统并不盲目追求“高帧率”,不像摄像头那样一秒拍几十张图。在专利中提到,有些实现方式中,面部或手部的姿势表情不一定需要高帧率(即每秒更新次数不需要非常高),但为了能够更清晰地区分不同的面部或手部动作,可能需要更高的分辨率(即每次采样时要有更多的细节信息),这样才能从多样的嘴部或手部动作中准确区分。
相反,当用户讲话时,嘴部的运动非常迅速,这些动作虽然快速,但为了捕捉嘴部整体的变化(例如嘴巴的轮廓或开合),不需要特别高的分辨率。
换句话来说,苹果针对不同的情况,采用了“高分辨率、低帧率采样”和“低分辨率、高帧率采样”两种模式,这样不仅能更准确传达情绪,还能节省运算资源。
最终,这些数据被交给AI模型进行重建,生成在Vision Pro中看到的那个表情丰富、动作自然、口型精准的Persona。
通过这个专利,我们也能看到现代科技多角度协同合作的魅力。苹果通过简单的发明,把两个常见的技术组合,再结合时下流行的AI技术,像解数学题一样给出了一个此前业界很难触及的显示效果,实在是非常有趣。
在此,我们也要特别写出该专利的发明家们:
Istvan Szini:天线和无线系统工程师
Brian Tsang:可穿戴设备工程师
Daehwa Kim:ML研究
来源:87870网