摘要:2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。
小米高级云原生研发工程师李洋已确认出席并发表题为《小米资源画像体系构建与业务实践》的主题分享。在 Kubernetes(简称 K8s)场景中,很多原生包括扩展的策略都是依托于不同维度的资源数据进行开发的,可以理解为资源数据是最能直接影响到策略结果的因素之一。然而无论是小到容器,还是大到集群,都拥有各自独特的资源属性,不能一概而论。但在通用型场景下,也不能重复造轮子。
资源画像,就是朝着 K8s 中最根本的资源方向,对不同类型的负载分层分类的刻画出更高维度的聚合数据,用数据丰富上游各种维度策略或提升现有策略准确性,从而解决“稳定性”、“交付”和“成本”等场景中的实际问题。本次分享将介绍小米内部在资源画像方面的实践,以及解决了哪些业务场景问题,带来了哪些收益,希望能为大家提供一些新的思路。
李洋现任小米高级云原生研发工程师,专注于云原生技术研发与优化,此前曾就职于快手和陌陌。深度参与内部核心组件研发(如 scheduler、descheduler、volcano、vGPU、koordinator 等)。其主导的资源画像预测压缩功能累计减少 5W+CPU 资源浪费,并通过优化 HPA 扩容策略显著提升业务稳定性和资源利用率。他在本次会议的详细演讲内容如下:
演讲提纲
从真实场景中分析不同维度遇到的挑战
交付 & 成本:资源浪费导致集群容量不足,发布“pending”,间接导致无法容纳更多的业务,导致集群资源利用率低。
稳定性:静态分配调度转实时负载感知调度后仍然有单机热点问题,影响业务稳定性。
稳定性:弹性扩缩滞后,业务稳定性受到影响。
画像体系构建与架构设计
组织阵型搭建:资源画像研发小组及基础架构的设计。
画像架构设计:能力拆解、组件划分、目标一致、各司其职。
业务场景实践
预测 workload 申请资源压缩,减少浪费,提高利用率。
预测 node 真实用量调度,减少热点,提高稳定性。
预测 HPA 提前扩容,避免无效缩容,提高稳定性。
总结展望
总结小米在资源画像实践中的效果。
探讨更多机制设计与思考。
很少有项目能从“资源预测”与“特征训练”等层面直接解决用户与 K8s 间的痛点问题。
贴近实际业务场景来讲解如何使用资源画像增强策略,带来收益。
听众收益
学习如何通过特征提取、预测与算法等技术,为 K8s 场景赋能。
了解小米内部如何通过资源画像解决真实业务问题。
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+ 资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088
来源:InfoQ