微调 LLMs 的正确姿势!非对称 LoRA 架构小参数,大作为!

360影视 2025-01-16 21:42 2

摘要:随着大模型应用发展的深入,参数高效微调(PEFT)凭借定制化、精准性等优势,成为大模型优化的热门方式,其中,LoRA引入‌低秩矩阵,实现了不输全面微调的下游适应性能,但是,增长的训练需求也带来了存储和传输成本。为了显著提升LoRA计算效率,NeurIPS'24

随着大模型应用发展的深入,参数高效微调(PEFT)凭借定制化、精准性等优势,成为大模型优化的热门方式,其中,LoRA引入‌低秩矩阵,实现了不输全面微调的下游适应性能,但是,增长的训练需求也带来了存储和传输成本。为了显著提升LoRA计算效率,NeurIPS'24 Oral工作(64/15671 =0.4%)HydraLoRA,创新性提出了非对称LoRA架构,分别处理不同的任务,避免干扰,实现了参数效率与模型性能的双重突破!

为了帮助大家掌握大模型顶会微调方法,研梦非凡于1月21日晚(周二),邀请了顶刊审稿人杨导师,独家讲解《HydraLoRA:超越LoRA!大模型微调效率巅峰!》(AI前沿直播课NO.93),从大模型参数微调(PEFT),到LoRA及相关变体及困境,重点讲解顶会方法HydraLoRA架构、实验,代码演示微调过程,1节课速通创新Adapter参数高效微调方法,get论文改进和实战知识点!

01 研究背景及相关工作

关注问题

a.LoRA的特点及使用方法

b.LoRA及其变种工作

c.LoRA目前的困境

d.动机观察

HydraLoRA创新点凝练

a.非对称结构的参数微调方法

b.弥补与全参数微调的差距

02 HydraLoRA算法框架(重点)

a.非对称的LoRA结构设计

b.HydraLoRA的工作流程

c.微调过程

d.推理过程

03 实验要点

a.实验配置

b.主实验分析

c.消融实验分析

d.讨论

04 能力提升(重点)

a.高效的参数微调方法

b.结合硬件化的微调技术

凡预约即领130篇精选论文(30篇LoRA最新论文&代码&顶会方法+100篇大模型必读)

直播课导师介绍

世界top10大学计算机科学毕业博士

博士研究方向为计算机视觉,自然语言处理,高效的深度学习训练和推理方法,大语言模型轻量化与高效微调技术。

多家公司担任算法研究员,并进行计算机视觉,高效模型压缩算法,多模态大语言模型的研究,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。

【科研成果】在国际顶级会议CVPR,ICCV, EMNLP等发表13篇论文,并担任CVPR,ICCV,ECCV,ICML,ICLR, NeurIPS等重要会议和期刊的审稿人。

多项发明专利,指导学生有耐心,教学严谨,思维逻辑缜密,已经指导数十篇论文。对于成果好的学生,帮助学生写推荐信和指导申请硕/博申请。

【招收学生方向】计算机视觉,自然语言处理,高效模型压缩算法,多模态大语言模型,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理,深度学习全栈研究。

idea并不是直接拍脑门拍出来的,是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。研梦非凡1V1定制化论文指导,和研梦导师一起找idea,研梦导师指导实验,共同解决数据问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!

>>

研梦非凡导师团队

研梦非凡的导师来自海外QStop50、国内华五、C9、985高校的教授/博士导师/博士后,世界500强公司算法工程师,以及国内外知名人工智能实验室研究员。

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~~

>>

AI尖端课题组

我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!

来源:科技现场谈

相关推荐