小米小爱同学:资源受限下,实现端侧大模型的高性能推理 随着大模型能力持续提升,如何将其有效部署到端侧设备,成为产业界面临的重要工程挑战。手机、车载、IoT 等设备对模型体积、推理时延、功耗和更新机制都提出了极高要求,也让端侧推理成为融合系统优化、模型压缩和软硬件协同的复杂问题。 模型 小米 推理 资源 杨永杰 2025-06-24 16:51 3