Talk预告|香港大学吴太强:知识蒸馏该用前向KL还是后向KL?

360影视 2024-12-31 23:34 3

摘要:他与大家分享的主题是:“知识蒸馏该用前向KL还是后向KL?”,届时他将主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。

本期为TechBeat人工智能社区653线上Talk。

北京时间1 月2日(周四)20:00,香港大学博士生吴太强的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 知识蒸馏该用前向KL还是后向KL?,届时他将主要分析前向KL和后向KL两种散度的特性,并对未来可能的应用做展望。

Talk·信息

主题:知识蒸馏该用前向KL还是后向KL?

嘉宾:香港大学 · 博士生 - 吴太强

时间:北京时间 1月2日(周四)20:00

地点:TechBeat人工智能社区

一键预约TALK!

Talk·介绍

知识蒸馏作为 LLM 中常用的模型压缩方法,随着LLM 的参数变多而变得越来越受到关注。最通用的知识蒸馏方式就是使用 KL 散度来对齐教师与学生输出的概率分布。然而,KL 散度不具备对称性,前向 KL 散度与后向 KL 散度并不相等。本 Talk 主要分析两种散度的特性,并对未来可能的应用做展望。

Talk大纲

1. 背景:介绍知识蒸馏与 前向/后向 KL 散度

2. 动机:之前工作提出 RKL 比 FKL 更适合 LLM 的蒸馏,因为 FKL 是 mean-seeking,而 RKL 是 mode-seeking

3. 贡献:本 talk 从理论和实验两个角度来证明这两种 seeking 的现象并不成立。与此同时。拟合初期,FKL 侧重拟合分布的头部,RKL 侧重拟合分布的尾部。

4. 总结:基于发现的特性,介绍了被 COLING2025 接受的 Adaptive KL (AKL)方法,并给出未来可行的研究方向。

Talk·预习资料

论文链接:

代码链接:

博客:

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

吴太强

香港大学 · 博士生

吴太强, 本科毕业于清华自动化系, 硕士毕业于清华深圳国际研究生院, 师从杨余久教授, 目前在香港大学电机电子工程系攻读博士学位, 主要研究方向是高效大语言模型, 包括模型压缩与参数高效微调. 曾在 NAACL, EMNLP, WSDM, COLING 等顶会发表多篇一作论文。

个人主页:

https://www.techbeat.net/grzytrkj?id=9169

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

来源:好学教育

相关推荐