从云端到端侧,大模型+智能体打造智能新生态

360影视 2025-01-25 03:25 2

摘要:刚才提到,大模型的发展需要向端侧迈进,通过精简大模型使其能够部署到端侧。除了模型压缩之外,端侧的算力也需要提升。通过这些技术手段,目前大多数手机已经能够实现大约10亿参数的推理能力,但这仍然无法满足终端智能的全部需求。当前,有些高端手机已经具备支持70亿参数推

物联网智库 整理

在“2025中国信通院深度观察报告会”上,中国工程院院士邬贺铨发表了主题为《端侧发力AI引流赋新质》的演讲。

以下内容根据演讲原文整理:

大模型的落地路径

大模型如今备受关注,但是基础大模型在落地方面仍有不足:

一是大模型作为Copilot(助手),快思考有广度但缺深度欠精准;

二是大模型质量取决于提问水平或对任务的精确描述;

三是工程/医疗等领域未经实验/临床实践,书本知识难成感悟;

四是基础大模型的大而全对特定任务大材小用且低效。

那么,大模型如何落地呢?可参考四大路径。

一是以Maas(模型即服务)模块形式将场景大模型及工具链嵌入云端,可加入用户数据微调,从而降低用户使用大模型的门槛。

二是基于基础大模型训练行业/场景大模型,通过瘦身成为端侧大模型,下沉到终端或边缘。

三是基于大模型的提问/应答闭环迭代,将知识形成感悟,得到轻量化的智能体小程序。

四是物理实体通过大模型上云+下沉+智能体获得具身智能。

刚才提到,大模型的发展需要向端侧迈进,通过精简大模型使其能够部署到端侧。除了模型压缩之外,端侧的算力也需要提升。通过这些技术手段,目前大多数手机已经能够实现大约10亿参数的推理能力,但这仍然无法满足终端智能的全部需求。当前,有些高端手机已经具备支持70亿参数推理的能力,未来有望实现百亿甚至千亿参数的推理能力。

端侧大模型低成本、低时延、高隐私、个性化,可离线运行。结合终端上的传感器和摄像头,大模型可实现更精准的环境感知和目标检测;结合终端的语音识别和自然语言处理能力,大模型可以实现更智能的人机交互和智能助手。

端侧大模型用于处理那些不需要大量复杂推理或快速响应的应用程序。将在动漫与视频创意、游戏和虚拟世界、语音合成与转换、视觉和图像处理、聊天机器人、医疗辅助、人脸识别等领域广泛应用。

智能体的生成:面向特定场景利用大模型训练得到。基于大模型在行动中学习,闭环迭代长思考推理形成长期记忆/感悟,以小程序/APP形式表达。通过学习使用者习惯和偏好,记忆并模仿使用者行为。

智能体将大模型的知识转化为感悟,可与大模型协同,或独立于大模型执行特定任务。如果把大模型比喻为智能手机的OS,智能体就相当于APP。

智能体的应用

智能体增加了很多应用能力。

手机上的智能体:可学习用户操作手机的行为,接受用户语音或文字输入并理解用户意图,自动操作手机上APP等操作。无需多轮对话,利用深度防伪的声纹识别来快速支付。

PC上的智能体:从浏览器开始探索人机交互,理解浏览器页面包括像素和文本、代码、图像和表单等网页元素信息,通过浏览器扩展程序使用这些信息为用户完成任务。

RPA(机器人流程自动化)工业智能体:记录和模拟用户在各类操作终端上的人机交互行为,代替人来自动完成固定、重复、标准流程的工作。

机器人的RPA智能体:可快速收集、清理、标准化和标记来自多系统的训练数据供大模型训练和推理。可跟踪并解释AI模型采取的步骤,解决AI黑箱问题。

此外,智能体还可以应用于财务管理、风控管理、供应链管理等多个领域。

AI智能终端AI手机和AI PC

如今,手机已嵌入简化的大模型与智能体,释放了用户创作内容的潜力。用户可在手机上通过文字生成图形或视频,甚至实现照片中人物与风景的智能融合。手机还可实现同声传译,识别多种语言甚至手语,并具备反诈功能。随着手机端侧大模型与智能体的普及,将带动新服务业发展,激活万亿元规模的手机与 PC 市场。IDC预测到2026年中国市场近50%的终端设备的处理器将带有AI引擎技术。

AI眼镜

眼镜始终观察外界,适于作为人机接口。

AI眼镜基于AI增强语音交互功能,自动调用装在眼镜上的麦克风、扬声器、摄像头、无线短距通信模块等硬件,连接嵌入智能体或大模型的手机,可离线或上云。

AI眼镜提供识别(语音、手势、物体),翻译(文字、语音,未来还包括手语),实时语音播报(天气、导航、导游)等。AI眼镜还可以识别唇语,在嘈杂环境中识别成功率超过95%。AI眼镜相当于手机的智能外设。

AI眼镜智能化、交互性、便携性、舒适度、个性化,更易在C端渗透。wellsenn XR预测2029年AI眼镜年销5500万副,到2035年有望达14亿副。

美国Meta公司的Ray-Ban Meta眼镜

AR眼镜与空间计算

人类进化出空间智能,看见的2D图纸可在大脑转换成3D图像甚至加入时间维度成为视频。大模型下沉AR眼镜可基于所见真实影像空间计算出相关定量描述并生成虚拟场景实现虚实融合。直接或经手机上云的轻量级AR银镜将从工业与医疗上应用率先进入市场,具有视频透视(vsT)或光学透视(osT)功能,支持语音和手势或眼球交互。

未来,我们有望通过光学技术将相关应用拓展至增强现实(AR)领域。人类本身具备空间计算能力,即便面对平面的文字,也能在脑海中构建出三维甚至动态的空间场景。借助 AI 技术嵌入终端设备,我们能够赋予手机类似的空间计算能力。

视频会议成为常态,但人们只能在屏幕上看到彼此的头像,缺乏真正坐在一起的沉浸感。然而,借助 AR 眼镜,我们可以将远方的伙伴“拉”到眼前,营造出一种真实且舒适的交互体验。

在工业场景中,AR 眼镜还能实现对物体的透视功能,调取其内部参数。这无疑是未来终端设备发展的一大创新方向。

具身智能与人形/车形机器人

大模型+智能体+物理实体,增加了多种感知能力和交互能力,我们发展了具身智能。

大模型+智能体+机器人,构成了人形机器人。

具身智能落在汽车上形成了车形机器人(智能网联车)。

那么这些实际上都有赖于端侧大模型以及相应的智能体。

云端与车端模型协同

车联网更是体现了云端与车端的协同配合。在云端,我们能够进行模型训练与推理,同时完成车辆软件的更新以及车辆间的信息共享。而在车端,车辆将具备约2Pflops的计算能力,足以支持智能座舱的运行,并实现毫秒级的处理速度。例如,当车辆感知到右下方的路况时,驾驶者不仅能看到前方的情况,还能通过车内的系统感受到全局信息。这种能力不仅能帮助驾驶者更好地理解路况,还能引导他们进行智能驾驶决策。

端侧大模型+智能体

端侧大模型+智能体引发了通信终端模式的变革,体现在以下几个方面:

终端形态多样化:手机、PC、眼镜等可穿戴设备、传感器/工业模组、机器人、网联车等;

终端功能智能化:从智能终端到AI终端,从通信终端到智能体/具身智能,还可离线使用;

人机交互多模化:自然语言、触摸屏、手势、唇形、眼神等,从GUI到VUI(语音界面)并发展为Agent UI,APP存在感和独立性被弱化,转而成为系统背后的服务工具;

内容供应个性化:获取信息的方式从浏览到对话,内容的产生从对外检索到用户生成(在终端内生成与云端协同生成),提问与获得的信息模态转换(文生图与文生视频),从内容预制到内容定制,千人千面;

通信连接多元化:从点到点(含接力、流量分担与冗余并发)到P2MP/MP2P(包括多归属、多切片),智能网联车PC5/Uu接口分别实现V2V和V2N连接,以多归属/多切片实现多传感器与车联网多设备互联:AR视频会议将异地参会者视频组成MP2MP连接。

计费模式差异化:基于体验从流量计费到服务质量计费,从计费单元从带宽到Token或算力,计费方式从包月、流量包到预订机时等。

当前,端侧大模型+智能体对网络技术产生了一定的影响。

首先是大上行与高突发

2024年10月,我国固宽百兆和千兆接入分别占94.8%和30.4%,固宽下行平均220Mbps,但上行仅44Mbps(Speedtest数据)。采用专线接入可提高上行能力,但因平时无需高带宽而利用率低且成本高。采用弹性无损智算IP网可支持10GE/100GE用户接入,按流量时长计费。

2024年10月,我国5G用户占移动用户55.6%,移动网下行平均140Mbps,但上行也仅23Mbps(Speedtest数据)。需要采用5G-A的大上行技术来适应。

其次是云边端协同,云与端间需要大带宽低时延高可靠传输。

模型参数及梯度(端侧训练的模型参数上传到云上,对云上大模型进行全局参数更新,再下发到端侧调整本地参数,反复迭代全局寻优);传输传输模型训练或推理的原始数据;传输在终端中生成的视频等。

可采用RDMA无损高吞吐广域网,辅以负载均衡精准流控,支持海量样本快速入算和存算分离拉远训练服务。

未来展望

移动通信换代演进成功的经验是终端与网络协同发展,2G的数字终端、3G的智能终端、4G的数据终端,5G终端有下载速度但功能上与网络能力不相称。现在大模型下沉和智能体嵌入OS将开启AI终端时代。

AI终端改变了人机交互方式,尤其是自然语言交互解放了双手,在语言的基础上发展为多模态,丰富了内容的供应与生成,提升了智能体验。

AI终端及其应用推动网络技术创新,带动软硬件产业及新型信息服务业的发展。AI终端将成为人工智能技术落地应用的切入点,也是数字经济发展赋能的新增长点,还是传统产业数字化转型的着力点。

端侧大模型+智能体为更多的开发者投身人工智能技术开发展现广阔的应用场景,带动起AI技术的众包时代,开拓产业的新生态。

来源:物联网智库

相关推荐