摘要:开年以来,DeepSeek-R1 推理模型将 AI 浪潮推向新的高度,各行各业迅速跟进落地,智能硬件在大模型时代浮现出全新形态。那么智能硬件在计算能力上有哪些演进?大厂又应如何布局智能硬件、应对计算平台的变迁?
开年以来,DeepSeek-R1 推理模型将 AI 浪潮推向新的高度,各行各业迅速跟进落地,智能硬件在大模型时代浮现出全新形态。那么智能硬件在计算能力上有哪些演进?大厂又应如何布局智能硬件、应对计算平台的变迁?
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了未来智能联合创始人 & CTO 王松担任主持人,和李未可科技合伙人 & 算法实验室负责人古鉴、网易有道 AI Infra 负责人张广勇一起,在 AICon 全球人工智能开发与应用大会 2025 上海站 即将召开之际,共同探讨 GPT 时代,智能硬件的挑战与机遇。
部分精彩观点如下:
回归硬件设计的本质,关键是围绕使用场景来匹配硬件和软件的能力。
未来眼镜必定会拥有自己的算力平台。
像耳机、眼镜等设备,随着场景化的结合和 AI 与硬件的融合,用户体验会不断提升。
在 5 月 23-24 日将于上海举办的 AICon 全球人工智能开发与应用大会上,我们特别设置了【 智能硬件落地实践 】专题。该专题将聚焦智能硬件领域的创新趋势与行业变迁,并邀请相关厂商分享最新技术进展,从多个维度探讨未来发展方向。
查看大会日程解锁更多精彩内容:
以下内容基于直播速记整理,经 InfoQ 删减。
技术演进驱动产品创新 王松:过去这一年,有没有哪款智能硬件或者产品形态让你们觉得——“这个真的不一样”?核心技术上有哪些本质提升?古鉴: 我对字节推出的 Ola Friend 这款产品印象深刻。最初,我并没有特别关注它,但在购买和使用后,我发现它的体验非常顺畅。特别是它与大模型的交互、与豆包的沟通速度和流畅性、唤醒能力以及降噪效果都让我感到满意。我认为这款产品是一个大模型的入门级产品,但它确实达到了我对 AI 硬件的期待。
王松:你平时的使用场景是什么?古鉴: 听歌、询问一些问题,我的孩子也喜欢与豆包聊天。
张广勇: 我并没有特别关注某一款产品,但这几年智能硬件领域取得了显著进展。例如,AIPC、以及智能眼镜、人形机器人等产品,还有有道推出的词典笔和答疑笔等,这些产品已经结合大模型从理论走向了实际应用。
总体来说,设备的轻便性、流畅性和质量都比预期的进展要快。最令人印象深刻的是这些设备的低延迟,避免了人们对大模型可能产生的慢速反应的担忧,在智能硬件上落地后,用户体验得到了极大的提升,使得人与设备的交流更加自然。
王松:随着模型压缩、量化等技术发展,哪些过去无法实现的功能现在可以落地到设备端?古鉴: 我们已经做了三代眼镜。在第一代产品中,我们使用了安卓系统,并将一些功能,比如 SLAM 技术,应用到带摄像头的运动型眼镜上。然而,当我们进入第二代和第三代时,发现将一些复杂的算法,甚至是大模型算法落地到端侧,实际操作的难度相当高。例如,现在将一个可能占用几 GB 的模型放到手机上,虽然可以实现,但在功耗和效果方面仍无法满足用户的基本体验。而我们的产品是一个只有几十克的眼镜,至今仍面临很大的挑战。如果要做一款端侧的大模型产品,既能满足用户的要求,又能在特定场景下顺畅使用,难度确实很高。因此,我们目前仍觉得基于云端的模型是最佳方案。
张广勇: 最初,我们的功能主要集中在查词和翻译上。但现在,我们已经上线了更多的大模型能力,比如 AI 老师的答疑功能,以及语法精讲、单词讲解等多种大模型功能。关于落地模式,我们有几种选择。一种是纯云端,另一种是云端与本地结合的模式。由于手机算力相比于大模型仍然差距较大,某些大模型无法在本地运行,因此我们使用基座模型和云端计算。而对于需要语音识别、OCR 等交互的场景,我们可以在本地使用算力处理离线任务。
除了云端结合外,我们还上线了纯离线的大模型。虽然这些模型的规模没有达到云端那种几十甚至上百 B 的规模,但我们已经实现了 0.5B 到 3B 的离线大模型。这些模型支持中英互译,以及古诗文翻译等功能,单个模型能够完成多个任务。
相对于原来的离线功能,我们使用离线大模型进行翻译,质量上有了很大的提升,已超过了在线 NMT 的质量。
王松:您说的离线功能是依赖于手机端的离线模式吗?张广勇: 不是的,我们的离线功能是基于词典笔的。词典笔可以独立使用,特别是针对学生,因为家长通常不会把手机给孩子使用。我们希望词典笔能独立运作,而且学生可以在户外或教室等地方使用。因此我们部署的离线功能完全基于词典笔本身的算力,不需要借助手机或其他设备。这样一来,即使没有网络连接,词典笔也能使用。
技术实现与跨团队协同 王松:智能硬件需要软件、算法、硬件、产品团队深度协作,协作过程中遇到过哪些关键矛盾,如何寻找最佳平衡?张广勇: 从硬件团队的角度来看,硬件工程师追求性能稳定、成本可控和可量产。产品团队则更关注用户体验和上市时间,通常需要压缩开发周期。但硬件开发与 APP 开发不同,硬件不仅需要研发,还涉及许多其他因素,AI 算法模块。AI 的迭代速度较慢,这给产品开发带来时间上的压力,导致硬件和产品需求之间存在冲突。
从软件和算法的角度来看,我们希望具备灵活的开发能力。在词典笔上,我们部署了本地模型,理想情况下希望本地算力和内存越大越好,但这会大幅增加硬件成本,特别是对于像我们这种小型硬件产品,成本压力较大。由于词典笔的市场定位和价格较低,它的算力和内存远不及手机。因此,在硬件有限的情况下,部署多个 AI 模型面临更大挑战。此外,产品团队面临的需求变化频繁,尤其是 AI 结合的新产品,使得算法的迭代变得更加复杂。在 APP 端,由于内存有限,无法支持过多底层算法模块,需要进行整体优化。最终,我们的目标是打造一款具有优秀用户体验的产品,确保我们的智能硬件具备高质量、低延迟、低成本、低功耗的整体优势。
古鉴: 硬件产品的定义在初期阶段至关重要。首先,我们需要明确硬件的使用场景,并在此基础上做出合理的妥协。例如,在我们设计的眼镜中,虽然 AI 眼镜是面向大众市场的,我们必须确保用户能够长时间佩戴,且眼镜外观应应该考虑到主打的人群。
功能定义同样至关重要。作为重语音交互的产品,我们就需要为眼镜设计特定功能,如降噪和特定词汇识别等。与此同时,还要在电池容量和外观设计之间找到平衡。性能与外观之间的矛盾将不可避免地在这一过程中显现。例如,一些人可能希望眼镜具备与用户长期互动的能力,甚至实现类似智能助手的功能。回归硬件设计的本质,关键是围绕使用场景来匹配硬件和软件的能力。
王松:是否曾因设备算力限制被迫简化功能,甚至是模型?可以分享通过算法优化或硬件适配破局的案例吗?古鉴: 在设计过程中,确实会面临舍弃一些功能的情况。现在我们的设计更多采用的是分发模型。很多人会问我们在设计 AI 眼镜时使用了哪家的大模型,对此,我认为需要更详细地解释:我们并不是只使用一个大模型,实际上是多个模型的组合,包括小模型、分发模型、聊天模型和 Agent 模型等。在这种情况下,我们需要确保分发过程足够快,因此可能会选择较小的模型。
但在聊天时,为了确保准确性,避免出现错误的回答,我们则会使用较大的模型。使用大模型时,回复速度可能相对较慢。那么如何在这个过程中解决等待时间的问题呢?因为眼镜设备的用户耐心是非常有限的,所以必须在短时间内给予用户反馈。这些都是设计中非常重要且具有挑战性的部分,尤其是在 Agent 功能中。很多 Agent 的接入方式甚至会涉及不同的大模型,这也是硬件和软件设计中一个比较复杂的难点。
王松: 古老师提到一个非常关键的点——不同的功能或场景可能需要使用不同的模型。前置部分实际上相当于你们内部的一个 MOE 模型。
古鉴: 对,因为很多时候,如果你只是问一个简单的“你好”,却还需要调用 Deepseek 模型,那就会浪费很多资源,关键是如何进行分发。例如,当我分发完后,就可以确定是否调用豆包模型或 Deepseek 模型等,这样的设计非常重要。
张广勇: 词典笔同时使用云端和端侧模型。关于云端部分,我们使用了有道自研的“子曰”教育大模型。由于端侧的算力较小,例如我们使用的词典笔配置的是 A53 CPU,相比手机芯片要弱得多。因此,从第二代到现在的第七代,我们在算法和工程上进行了大量优化,包括采用蒸馏、MOE、量化等。由于第三方计算库性能不足,我们自己实现了一些底层计算库,并采用了混合精度量化技术,让我们的模型可以部署在词典笔本地。由于算力和内存的限制,我们的模型初期较小,性能优化不足,但这并非终点。随着性能的提升,算法模型的大小也在逐步,最终优化后,模型的参数量提高了一倍。从 2018 年至今,我们针对离线机器翻译已经优化了多个版本,即提升了质量又降低了延迟,大幅提升用户体验。
此外,我们与上下游的合作也非常紧密,尤其是与芯片厂商的深度合作。智能硬件的落地需要 AI 能力的支持,而芯片厂商的合作至关重要。端侧使用的 NPU 芯片比 CPU 更强大,功耗更低。举例来说,我们的 OCR 模型从 CPU 切换到 NPU 后,模型规模增大了 15 倍,错误率下降了 60% 以上,识别速度提升了 50%。
用户体验与交互设计 王松:如何协调算法性能、硬件能力和用户体验,以实现高效的硬件交互设计?张广勇: 虽然词典笔现在上线的模型还不是端到端的多模态模型,但我们的用户体验功能已经是多模态的。用户不仅可以通过文本输入,也可以通过语音输入,尤其词典笔的扫描输入更高效,是用户最喜欢的输入方式。当然,这个过程是逐步探索的,我们在 7 代词典笔上增加了摄像头,以便更好地让用户使用。
在词典笔的设计上,原本只提供查词和翻译功能,形态较为长条且集中在笔头部分。随着答疑功能的加入,尤其是题目讲解等需求,我们发现全屏更适合这种功能,因此我们将它升级为全屏设计,提升了屏幕的显示效果,使用更为便捷。
古鉴: 虽然一些厂商可能会结合戒指或手机来控制眼镜,但我们一直相信一体式设计,即眼镜本身的交互方式是最完整的。因此,我们的核心依然是语音体验。我们认为语音交互是所有交互方式中最基础的部分,此外可能还会在镜腿上增加一些简单的滑动操作。
在语音交互方面,我们注重语音识别和指令识别等基础功能。尤其是在双芯片设计中,我们如何进行降噪、声源定位等优化,都是交互设计的重要部分。同时,我们还考虑了唤醒词和翻译过程中的同声传译,比如回声消除和语种区分等。这些功能在实际场景中的应用非常复杂,因此我们在确定场景后,会围绕场景优化硬件和软件的核心能力。
王松: 很多人认为眼镜是下一代计算平台,您怎么看。
古鉴: 我之前一直从事 AR 行业,现在我认为眼镜仍然无法完全脱离手机。然而,未来眼镜必定会拥有自己的算力平台。如果眼镜要与未来的技术变革相适应,可能会颠覆现有的应用商店,取而代之的是类似于 Agent store 的系统,眼镜必须摆脱手机的限制。
未来,眼镜将具备眼球追踪、SIM 卡和摄像头等功能。如何在保证这些功能的同时,实现续航和电池的妥协,且保持眼镜轻巧(如低于 40 克,最好控制在 30 至 35 克之间),将是一个巨大的挑战。我认为,这一目标可能还需要 3 到 5 年,甚至更长的时间才能实现。
王松:听说 Apple 的 Vision Pro 2 已经在开发了,您觉得它的一代产品成功吗?古鉴: 我认为第一代并不算成功,它的重量超过 600 克,销量也没达到预期。我认为第二代会更加注重优化,它可能会对标 Meta 的眼镜,或者采用像碳化硅材料这样的新型显示技术。
王松:在未来的多模态感知技术中,对于 AI Infra 的架构设计有哪些挑战?古鉴: 我们预计下个月就会推出带摄像头的眼镜。之前,我们已经用这款带摄像头的眼镜进行过多模态应用的测试,例如在博物馆内进行文物识别等。我认为有几个关键点需要注意。首先是多模态传输协议的问题,如何将图片等数据快速传输到云端,同时保证速度和功耗的低消耗。其次是向量存储问题,尤其是多模态数据存储和文字对齐等,这也是一个技术难点。
另外,进行并行计算也是一个重要问题。传输过程中,可能需要同时进行语音计算等操作。此外,交互模式也会有很大变化。比如,当看到一张图片时,系统可能会主动告诉你它是什么,或者你可以主动询问:“这张图是什么?”这些交互方式如何做到自然流畅,是架构设计中的一个挑战。我认为底层架构的关键部分包括向量存储和多模态传输协议的设计。
张广勇: 从用户角度来看,我们的词典笔已经是一个多模态产品,具备笔头扫描、摄像头拍照和语音输入功能。当然,从端到端的方案来看,现在的流程还是串行的,未来肯定会向端到端的多模态模型发展。如果是完整的多模态模型,我们可能会将拍摄的图片直接传输到云端的大模型进行处理。而现在采用的是本地和云端相结合的模式,先在本地进行 OCR 文字识别,然后只传输文字,这样可以大大减少传输量。
目前,在图片传输和获取方面,我们的技术已经比较成熟,并且在产品上已经落地。未来可能还是聚焦在云端多模态模型的部署,包括分布式并行计算、数据量分离、量化等各种挑战。如果加入更多的模态和不同的网络结构,部署会变得更加复杂,需要结合像 GPU 或其他芯片进行设计开发,尽量确保模型能够在保证低延迟的同时,实现较高的吞吐量。
场景化应用 王松:在教育硬件中,如何通过算法优化和 AI Infra 的支持,确保模型的快速响应和高精度知识输出?张广勇: 首先,关于幻觉问题,我们基于子曰教育大模型,并结合了 RAG、知识库等技术,通过多年的教育积累和数据支持,来规避这些问题。在低延迟方面,我们采用了 INT8、INT4、FP16 等混合量化方式,利用低精度充分发挥本地算力。而在高精度方面,我们采用了混合量化技术,因为纯 INT4 精度可能无法满足要求,混合使用 INT8 和 FP16 能够既保证精度,又能提供快速响应。
王松:你们端侧的 OCR 识别率怎么样?张广勇: 我们的 OCR 识别率对于常规文本来说,通常能达到 98% 以上。当然,识别的准确度与词典笔的使用习惯有关,如果用户没有正确对准扫描区域或者没有拍好照片,可能会影响识别效果。在这种情况下,用户有时会重新扫描。如果扫描到位,常规文本的识别没有问题,甚至对于一些复杂场景,比如艺术字、手写等场景,我们也能保持较高的准确度。
王松:那么像 OCR 这种场景,离线模式已经足够应对了?张广勇: 对,对于大多数情况,离线能力已经足够。不过,对于一些复杂的场景,比如复杂的公式识别,离线模式可能因算力限制而无法处理得很好,这时我们会结合一些在线能力来解决。
王松:古老师能否分享一些具体的算法优化策略或 AI Infra 架构设计,以展示在这两个领域的差异化调优实践?古鉴: 整体速度仍然是一个关键问题。比如在部署模型时,我们可能会先使用类似投机采样的小模型进行序列探测,然后再由大模型进行验证。另外,在设计过程中,我们致力于提升用户的体验。与手机聊天的文字输入相比,用户与眼镜交互时的感受是完全不同的。我们设计了分发策略,通过快速处理大量标注的语料,包括系统语料、闲聊语料和指令语料,从而训练了我们的分发大模型。
举个例子,当用户问天气时,系统能够快速调用天气信息。如果用户说:“我吃饱了,想去西湖玩”,系统需要判断是调用导航功能,还是提供西湖周边的美食推荐等。这一切依赖于我们的训练策略,通过对大量数据进行标注,整体速度得以提升。
在用户体验方面,我们还加入了一些优化,比如在搜索过程中,系统会提示用户稍等一下。当用户收到类似反馈时,通常会愿意等待几秒钟。此时,我们可以提供更好的反馈,提升用户体验。
王松:您认为哪些 AI Infra 层面的技术创新可以有效提升产品的场景适应性和用户体验?能否分享一个您参与或了解的成功案例,详细说明如何通过算法和 AI Infra 的结合,实现产品的场景化设计与用户价值感知的提升?张广勇: 主要集中在两个大场景:查词翻译和 AI 答疑老师。查词翻译功能结合了 OCR、翻译和 TTS 技术,AI 答疑功能则是在大模型的支持下,能够为用户提供更多的价值。答疑功能的目标并不是替代老师,而是作为对老师的补充。例如,传统的辅导老师在学科上有明确分工,而 AI 大模型则可以在同一个模型下处理所有学科的问题。如果学生在学习数学时遇到历史问题,AI 大模型也可以帮助解答。
此外,AI 大模型还能够提供更好的交互体验。与传统的固定答疑方式不同,大模型可以实现灵活的互动,学生可以随时打断并提问,向模型询问具体知识点或相关百科知识,这样可以让学习过程更有趣,也能拓宽学生的知识面。
古鉴: 目前,我们正在与一些展会和外贸场景结合,打造一个完整的解决方案。这个方案包括多语种翻译,特别是一些小语种的翻译,同时也包括全天候记录和总结功能。尤其是在专业场景中,比如前几天我参加了广交会,现场的确感受到了不同国家的人们都需要翻译服务。
虽然英语翻译设备很多,但对于小语种、专业词汇和不同口音的翻译需求,仍然存在挑战。我们的眼镜可以快速与用户进行交流,尤其是在展会中,展商需要记录与客户的沟通内容。如果一天与 100 个客户交流,记不住所有细节是很常见的。我们的方案能够帮助展商记录下交流内容、总结对话,甚至保留翻译历史和音频文件,便于后续联系潜在买家。我认为这是一个基于实际场景的有效翻译解决方案。
王松: 如果能加上视频和拍照功能,记录现场情况并还原场景,用户的印象可能会更加深刻。
古鉴: 确实,收到反馈后,我们计划在摄像头版本中加入拍摄名片和合照的功能,将这些内容插入到记录中,这样可以让记录更加完整。
王松:端侧能力开发中,选择开源模型还是自研闭源方案?考虑的维度有哪些?张广勇: 端侧的算法和模型优化主要依赖两部分:一是算法,二是模型工程。我们会基于一些开源模型,结合我们的数据进行深度优化。对于云端来说,开源的推理框架非常多且效果不错,但在端侧,开源推理框架较少,效果也有限。主要原因在于,词典笔的算力和内存非常有限,内存仅为 1GB,而一些模型动辄需要几百兆的内存。此外,使用第三方框架时,速度往往无法达到实时要求。因此,我们选择自己实现底层服务,即提升了速度,又降低了运行内存,使内存消耗保持在可控范围内。这也反映了端侧和云侧模型部署的一个重要区别:云侧可以通过扩展多台机器和多个卡来满足用户需求,但在端侧,一台设备上的芯片需要同时支持多个功能模块,例如离线大模型、OCR、TTS、ASR 等。这个限制使得在端侧部署本地模型更具有挑战。
古鉴: 目前,我们还没有一个完全开源的端侧解决方案,因为眼镜的算力有限。我们认为,眼镜和手机都是个人设备,用户的聊天记录等数据应该保留在本地,以确保隐私安全。因此,我们倾向于使用开源解决方案,并经过优化以适应手机或眼镜端。然而,现在看来,眼镜端直接运行端侧模型仍然有一定距离。
王松:您预计眼镜上大概需要多长时间才能直接运行离线模型呢?古鉴: 这肯定与电池技术的发展密切相关。例如,现在有些半固态电池已经在使用,如果芯片算力得到提升,电池续航也能增加,我觉得在未来一两年内是很有可能实现的。现在,许多公司都在探索这种可能性。端侧的模型相对较小,可能会解决特定场景的问题,而不是像我们所说的大型离线模型方案。因此,这种小型离线模型的实现是非常有可能的。
王松:您认为 AI Agent 深度嵌入硬件会带来哪些范式级体验变革?古鉴: 我们非常重视 Agent 这一概念,因为我们认为眼镜应当是一个随身设备,像个人助手一样。例如,我们有自己的 Agent store。此外,我们还在探索 MCP 方案,希望能够接入更多的 Agent 框架。Agent 的优势在于,它能够突破传统数据限制,连接所有 APP,并记录用户的使用情况,从而提供更个性化的帮助。我们希望在眼镜上实现类似的功能,例如通过 Agent 来点咖啡、点外卖,订票等。通过 Agent,你不再需要打开手机,这正是未来的发展趋势。
张广勇: 我们的 AI 答疑老师本质上是一个 Agent,具备几个特点。首先,它可以实现个性化教学,因材施教,并且支持全科目教学。传统教育中,各学科相对独立,但在 AI 智能体的支持下,学生可以跨学科学习,打破学科之间的壁垒。
其次,AI 智能体可以增强学生的学习体验,提升交互性。例如,对于立体几何等空间感较强的学科,学生可能难以理解,但如果通过视频或动画形式展现,学习起来更加形象化。AI 可以根据学生的需求生成内容,甚至让学生自己根据想法绘制和生成学习内容,而不再局限于固定格式。
此外,AI 还可以促进学生从被动学习转向主动学习。传统教育方式中,学生主要接受老师的讲授,而现在,学生可以通过扫描、拍照、语音交互等方式主动探索知识。与 AI 的互动让学生可以随时提问,激发更主动的学习兴趣。AI 不仅能生成视频和动画,还能创作其他作品,这为学生提供了更多可能性。
王松: 我认为未来 AI 与人类的交互将有两种模式。第一种是 Copilot 模式,主要的活动还是由人类主导,而 AI 在旁边提供高度智能的辅助。这种模式是未来无法避免的,因为人类始终是主角。第二种模式则是,人在开始时设定任务,然后 AI 独立完成,直到任务完成后再通知人类。未来,我认为这两种模式将并行很长一段时间。人类会继续参与,但也能偶尔“偷懒”。因此,这两种模式在未来都非常重要。
王松:未来 2-3 年最看好的智能硬件场景是什么?张广勇: 对于我们自己的产品,我们主要做的是 AI 与教育结合的学习智能硬件产品,像我们今年推出的 spaceone 答疑笔,具有全屏,更适合大模型的功能落地。基于这些硬件,再加上大语言模型、推理模型和多模态模型的能力,我们的产品能够提供一个非常自然的交互体验,无论是语音还是拍照,都能顺畅进行。
对于其他产品,用户体验会越来越好。例如,我使用了豆包耳机,原本以为延迟大、会卡顿,但实际使用后发现它的交互非常自然,反应也非常快,可以方便地解决各种问题。
像耳机、眼镜等设备,随着场景化的结合和 AI 与硬件的融合,用户体验会不断提升。当然,智能硬件面临的挑战,特别是功耗和重量问题,特别是眼镜设备需要更便携,未来这些设备的缺陷会逐渐得到弥补,体验也会越来越好。
古鉴: 我还是非常看好眼镜的发展。比如说,未来的教育中,孩子们的近视率很高,很多家长不希望孩子使用手机。如果孩子戴上眼镜,可以用它来扫题、提示学习内容,甚至引导坐姿纠正等,我认为这就是眼镜在教育领域的一个重要应用场景。
除了眼镜,还有像项链、戒指等设备,必须与 AI 结合。通过这些随身硬件收集个人数据,并训练出一个个人助手或辅助系统,将大大提升用户体验。未来,甚至有可能将这些数据与脑机接口或机器人技术结合,从而使用户拥有一个“替身”,帮助完成许多任务。这样,用户就可以更多地享受生活,而不必担心琐事。大模型只是一个起点,随着技术进步,人类的工作将逐步减少,我们将更多依赖“Avatar”来完成工作。
来源:商财洞察君