图像编辑

南方科技大学团队:如何实现可编辑物体组合?

对于那些喜欢编辑图像的人来说,将一个物体自然地放入背景场景中一直是个难题。想象一下,你手中有一张可爱柯基犬的照片,希望将它放在客厅沙发上,但总是效果不佳:要么柯基看起来像"贴"上去的贴纸,要么角度不对,要么狗狗的毛色和特征都变了。这正是南方科技大学林剑满、李昊

组合 科技大学 图像编辑 南方科技大学 林亮 2025-06-09 15:45  7

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

现有的图像编辑评测基准是否已经无法跟上时代的步伐?仅仅停留在“更换颜色”等改变物体表层属性的测试,是否已显得过于简单,无法真正衡量AI的“深度理解”能力?当指令变得更加复杂,涉及图片背后的逻辑、上下文关联甚至隐含意图时,现有模型能否正确“领会”并精准执行,同时

实验室 上海 图像编辑 闭源 图像编辑基准 2025-05-30 14:57  5

自媒体入门学习指南:如何从零起步

随着数字时代的迅速发展,自媒体已成为人们获取信息、分享视角、甚至实现个人品牌化的重要渠道。如果你想要深入学习自媒体,掌握从基础到进阶的各项技能,需要明确学习路径,并逐步构建自己的内容生态。本文将为你提供从零开始学习自媒体的起步方法,帮助你在这个充满潜力的领域找

学习 自媒体 seo 图像编辑 搜索引擎优化 2025-05-28 21:24  4

小模型逆袭屠榜!30倍数据效率+13倍模型压缩效果暴增近10%!

亮点直击新发现:旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题,这是先前工作忽视的根本性问题,如下图2所示。修正监督:利用扩散生成先验指导视觉语言模型,为原始-编辑图像对生成更匹配的编辑指令。强化监督:引入基于三元组损失的对比监督,使编辑模型能

模型 文生 图像编辑 vlm 先验 2025-05-17 01:03  7

当AI同时精通“看”与“画”:阿里巴巴团队多模态AI模型的惊人进展

在人工智能领域,有两类模型一直沿着不同的轨道发展:一类擅长"理解"图像和文字,就像一个能看懂图片并回答问题的智能助手;另一类则擅长"创造"图像,就像一位根据文字描述作画的数字艺术家。直到最近,这两种能力很少能在同一个AI系统中完美共存。这正是阿里巴巴集团联合多

模型 模态 数据集 阿里巴巴 图像编辑 2025-05-12 21:03  8

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face

随着Gemini、GPT-4o等商业大模型把基于文本的图像编辑这一任务再次推向高峰,获取更高质量的编辑数据用于训练、以及训练更大参数量的模型似乎成了提高图像编辑性能的唯一出路。然而浙大哈佛这个团队却反其道而行之,仅用以往工作0.1%的数据量(获取自公开数据集)

模型 浙大 哈佛 图像编辑 浙大哈佛 2025-05-08 12:57  9

图层式记忆:让AI图像编辑如魔法般简单直观

当你使用手机或电脑修图时,是否曾经遇到过这样的情况:你想在一张森林照片中依次添加一个乐高小人、一辆吉普车,再放一只小狗,但每次添加新元素时,前面添加的内容却变得奇怪或者完全消失了?韩国首尔国立大学的研究团队最近解决了这个令人头痛的问题,他们在2025年5月发表

记忆 魔法 图像编辑 首尔国立大学 ai图像编辑 2025-05-06 20:14  8

AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;夸克AI超级框上线 “拍照问夸克”

Moonshot AI最近推出的Kimi-Audio是一款开源音频基础模型,旨在推动音频理解、生成和交互技术的发展。该模型基于Qwen2.5-7B架构,结合Whisper技术,支持多种音频任务,如语音识别和音频问答。凭借超过13亿小时的多样化音频数据训练,Ki

模型 开源 夸克 图像编辑 kimi 2025-04-28 01:07  8

集体照拍摄避坑指南,确保拍出所有参与者的最佳状态

无论是工作中还是生活中,集体照作为记录美好瞬间的重要方式,承载着无数的回忆与情感。然而,一个不容忽视的问题是,几乎每一张集体照中,总有那么一两位成员或是闭眼、或是表情管理失控,为完美的照片留下遗憾。本文旨在深入探讨这一现象背后的原因,并提出五项专业级的集体照拍

图像编辑 连拍 相机参数 黄金分割法 参与者 2025-04-13 08:54  9