Talk预告|卡内基梅隆大学刘士弘:LOV - 如何无参数有效优化视觉语言模型

摘要:他与大家分享的主题是:“LOV - 如何无参数有效优化视觉语言模型”,届时他将分享一种新的优化方法,利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。相关工作已入选CVPR 2024。

本期为TechBeat人工智能社区643线上Talk。

北京时间11 月27日(周三)20:00,卡内基梅隆大学硕士生刘士弘的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: LOV - 如何无参数有效优化视觉语言模型,届时他将分享一种新的优化方法,利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。相关工作已入选CVPR 2024

Talk·信息

主题:LOV - 如何无参数有效优化视觉语言模型

嘉宾:卡内基梅隆大学 · 硕士生 - 刘士弘

时间:北京时间 11月27日(周三)20:00

地点:TechBeat人工智能社区

一键预约TALK!

Talk·介绍

GPT-4o、DALL-E 3等模型在图像生成领域取得了令人惊讶的成绩,然而这些视觉语言模型通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。同时,即使这些模型通常向用户开放自然语言接口,传统的提示词工程严重依赖工程师的经验和先验知识。

本次Talk将介绍CMU近期发表在CVPR 2024上的‘Language Models as Black-Box Optimizers for Vision-Language Models’。团队创新性的提出利用大语言模型来有效的自动优化视觉语言模型在多个下游任务中的表现。这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。

Talk大纲

1. 背景:视觉语言模型近期在CV领域的发展以及优化难点

2. 研究动机:模型权重不透明/人工提示词的难度较高且依赖先验

3. 解决方案:我们设计了一个以hill climbing及大语言模型为核心的自动优化框架,使得视觉语言模型在不依赖参数和人工先验的情况下有效得到改进。

4. 应用与延伸讨论:有关prompt engineering的一些应用思考以及相关的延伸思考。

Talk·预习资料

论文链接:

项目主页:

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

刘士弘

卡内基梅隆大学 · 硕士生

刘士弘(Shihong Liu)是卡内基梅隆大学的研究生毕业生,曾任机器人研究所研究员。目前在北美Amazon 工作,负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。

个人主页:

https://www.techbeat.net/grzytrkj?id=42605

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

来源:热腾白开

相关推荐