Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

摘要：他与大家分享的主题是:“LOV - 如何无参数有效优化视觉语言模型”，届时他将分享一种新的优化方法，利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。相关工作已入选CVPR 2024。

本期为TechBeat人工智能社区第643期线上Talk。

北京时间11 月27日(周三)20:00，卡内基梅隆大学硕士生刘士弘的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “LOV - 如何无参数有效优化视觉语言模型”，届时他将分享一种新的优化方法，利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。相关工作已入选CVPR 2024。

Talk·信息

▼

主题：LOV - 如何无参数有效优化视觉语言模型

嘉宾：卡内基梅隆大学 · 硕士生 - 刘士弘

时间：北京时间 11月27日(周三)20:00

地点：TechBeat人工智能社区

一键预约TALK！

Talk·介绍

▼

GPT-4o、DALL-E 3等模型在图像生成领域取得了令人惊讶的成绩，然而这些视觉语言模型通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。同时，即使这些模型通常向用户开放自然语言接口，传统的提示词工程严重依赖工程师的经验和先验知识。

本次Talk将介绍CMU近期发表在CVPR 2024上的‘Language Models as Black-Box Optimizers for Vision-Language Models’。团队创新性的提出利用大语言模型来有效的自动优化视觉语言模型在多个下游任务中的表现。这一方法不仅无需触及模型内部参数，还大幅提升了优化的灵活性与速度，让用户即使没有技术背景也能轻松提升模型性能。

Talk大纲

1. 背景：视觉语言模型近期在CV领域的发展以及优化难点

2. 研究动机：模型权重不透明/人工提示词的难度较高且依赖先验

3. 解决方案：我们设计了一个以hill climbing及大语言模型为核心的自动优化框架，使得视觉语言模型在不依赖参数和人工先验的情况下有效得到改进。

4. 应用与延伸讨论：有关prompt engineering的一些应用思考以及相关的延伸思考。

Talk·预习资料

▼