深度好文!AI创作工具的「可控性」与「用户体验」博弈

360影视 2025-02-06 21:28 2

摘要:因为一些原因很久没更新了,最近一直研究和学习 ComfyUI,突发奇想想聊聊关于 AI 的一些事,这两年生成式 AI 爆发性增长并且重塑数字创作的工具生态。从文本生成、图像视频生成以及模型训练,可以说无法离开 AI,AI 的介入让创意生产变得前所未有的高效简单

因为一些原因很久没更新了,最近一直研究和学习 ComfyUI,突发奇想想聊聊关于 AI 的一些事,这两年生成式 AI 爆发性增长并且重塑数字创作的工具生态。从文本生成、图像视频生成以及模型训练,可以说无法离开 AI,AI 的介入让创意生产变得前所未有的高效简单,但同时也带来了体验上的困境,例如我们在使用自动化生成便利的同时,还能保持对创作过程的深层控制?比如在进行文生图或者线稿转 3D 的流程中,我们如果要控制某个部分的设计表现,需要利用多个方法才能完成,仅仅通过提示词的修改并无法完成,这个矛盾在之前的 SD 等开源模型中非常明显。

算法模型的开放让设计达到了无限的可能,但更多设计师却被迫在控制权和易用性之间做出了妥协,当重复一个流程无法生成满意的图像时,大多情况都是基于一个“不满意”的图像进行优化,我把这个理解为用户心理上的妥协;

以节点式工作流工具 ComfyUI 为例,其通过可视化编程赋予用户对 Stable Diffusion 生成流程的精细控制权,允许自由组合模型、调节参数、插入预处理模块,成为专业创作者的首选工具。然而,这种高度自由的设计也带来了显著的认知负担:错综复杂的节点连线、晦涩的参数术语、缺乏引导的开放式画布,让 0 基础设计望而止步;数据显示,超过 67%的新用户在首次使用 ComfyUI 时因“界面混乱”而放弃进一步探索(来源:ComfyUI 社区调研,2023)。这一现象揭示了生成式 AI 工具设计的核心矛盾——系统的灵活性与用户的心智模型之间如何实现平衡?

1. 设计师对“控制权”的需求本质

安全感需求:用户希望理解生成过程(分布控制、seed 数值、cfg),避免黑箱带来的不可预测性;

注:大多数 AI 工具(如 Midjourney)像一台自动售货机——输入提示词,随机吐出一张图片。用户无法知晓AI为何生成一只三头六臂的猫,只能反复“抽卡”直到满意。

创造性需求:通过精细化的控制实现独特的风格,例如分布提示,基于大模型训练出来的 lora,不同 lora 模型融合后的混合模型,这些需要付出很大的学习成本和时间才能满足,我个人理解 AI 给设计师通往目标的过程中搭建了不同的道路,但设计师如果在没有导航的情况下要达到这个目标,中间可能会辗转反侧,也可能一条道路就能到达目的地;

效率需求:自动化设计(如 MJ 和国内其他一键生图的 ai 产品)可以降低设计的操作成本,但同时牺牲了可控性;

2. comfyUI 的设计矛盾

过度控制悖论:ComfyUI 试图打破黑箱,将 AI 拆解成可调节的“齿轮组”(如调节“采样器”改变画质、用“ControlNet”控制构图)。但当用户面对 50 多个参数和上百种节点时,反而因信息过载陷入“该调哪个参数?连错节点会爆炸吗?”的决策瘫痪。

过高的配置要求:comfyUI 解决了 MJ 带来的黑箱效应,但同时也带来了物质上的门槛,设计师需要配备更高的配置或者使用第三方租用云电脑等才能运行,否则前者就会造成漫长的等待,后者则需要花费大量的财力,对于设计师而言反而是造成了时间上的负荷;

功能维度:节点系统支持无限组合,但缺乏对用户意图的主动理解,如自动推荐节点;

认知维度:参数暴露(如 CFG Scale、Sampler)提供控制感,但引发“选择过载”实际使用过程中,如果是普通玩家,无法短时间内通过这些参数来控制结果,核心还是在于认知门槛过高;

交互维度:自由连接节点导致逻辑混乱(如错误连线无及时提示),增加调试成本。

我把 ControlNet 的“负面条件”打乱连接到“正面 clip 文本框”上,而采样器的“负面条件”直接连接到“负面 clip 文本框”内,整个过程是不会出现任何报错提示,但是当运行调试的时候就会运行失败,提示 ControlNet 缺少负面条件,ControlNet(应用)缺少负面条件输出等问题,众所周知对于一些低配玩家,运行一次需要等很久,等到最后发现生产出来一个“报错”!!!

当设计师想生成“一只穿宇航服的柴犬”,Midjourney 可能输出卡通风格或超现实照片,设计师只能通过追加提示词(如“3D、黏土”)逼近目标,不停的抽卡;

(实在不想用 mj 了,下面的图本地跑的,大概的意思一样就是不停的抽卡抽卡)

在 ComfyUI 中,设计师可以强制指定:用 flux 模型生成基础图像然后加载相关LoRA模型在添加个视觉风格迁移的模型添加宇航服在添加个视觉风格模型连接OpenPose节点调整柴犬姿势最后用放大模型放大画质;但我就想说:我只是想画只猫,为什么要弄这么复杂。。。

关键结论:

ComfyUI 的“高可控性”吸引专家设计师,但普通设计师或者 0 基础设计师因认知负荷大多放弃使用。

Midjourney 通过“限制控制权”降低门槛,但设计师可能因无法干预细节感到焦虑。

为什么说这个呢,因为 comfyui 目前是趋势 ai,核心的生成逻辑包括实际应用都已经大于 mj 了,所以接下来的内容也是围绕 comfyui 拆解的;

1. 参数暴露 vs 认知负荷

问题:ComfyUI 将所有参数(如 LoRA 权重、VAE 选择、采样器、各种模型加载器)暴露给用户,导致界面信息过载。

例如:设计师需要同时调整“提示词权重”“采样器类型”“ControlNet 强度”时,易混淆参数优先级,对于这个结果的影响,是采样器类型问题呢还是 ControlNet 的数值不对呢,最后我猜大多人过程都是一个个试一遍,最后哪个效果好用哪个;

思考点:

动态参数分组,根据生成的目标隐藏无关的参数,比如当输入完成“提示词”后,可以识别出输入的提示词类型,生成一个 3d 风格海报,那么基于这个提示词,就可以提前预判出跟 3d 风格海报相关的参数都可以隐藏;

参数依赖的可视化,通过逻辑线的方式标记他们之间的关系,例如 CFG 与采样步数,通常来讲 CFG 数值越高生成的图越接近提示词,但是图像质量会下降,采样步数越高生成的图质量就越高,那么问题来了,当设计师调整 CFG 数值时,是不是可以标记或者提示设计师采样步数的变化,以此来达到最优解;

下方示例

2. 自由连接 vs 逻辑错误

问题:节点可任意连接,但缺乏逻辑校验目前 comfyUI 中只是告诉设计师如果两个节点本身没有前后关系的情况下不可以连接(没有节点对应的收入口)另一种情况是两个节点在一个工作流中都能起到作用,但是节点是多功能化的,连线的时候可以正常连接,最后运行的时候就会出现某某节点不匹配。

例如:设计师错误连接 ControlNet 预处理器与 VAE 节点,导致生成失败且无报错提示。

思考点:

实时逻辑校验,在设计师连线时提示冲突(如“该节点仅接受潜空间输入”)。

工作流自检模式,一键检测缺失节点(如缺少“提示词编码器”时提醒用户)。

生成式 AI 工具的设计矛盾,本质上是人类认知模式与技术逻辑的冲突。以 ComfyUI 为例,其设计暴露了以下深层问题:

1. “技术透明化”的认知陷阱

ComfyUI 将 AI 生成过程拆解为节点,试图通过“透明化”提升用户信任,但普通人并不需要(也无法理解)技术细节;

不知道你们有没有,当我第一次看到“VAE 解码器”“潜在空间降噪”等节点时,大脑会触发“意义建构焦虑”——“这些词和我想要的图片有什么关系?”

2. 控制权的“虚假承诺”

ComfyUI 看似赋予用户完全控制权,但多数参数的实际影响难以预测(如 CFG 值从 7 到 8 可能导致画风突变)

这类似于让设计师驾驶一辆方向盘与轮胎无机械连接的汽车,转动方向盘时,轮胎可能随机偏转。

设计师误以为“控制节点=控制结果”,实则是“在黑暗中调整未知旋钮”;

3. 技术极客与大众的“认知断层”

开源社区的理想:“人人可 Hack”的民主化工具;

现实问题是开发者设计节点时默认用户理解 SD 原理(如 Latent Space、扩散模型、euler_ancestralcai、dpmpp_2m),但普通用户只关心“如何让图片更逼真”;

这种断层导致 ComfyUI 的文档充满技术术语,而非用户目标导向的指南(如“修复模糊人脸”对应哪些节点组合),这也是技术工具与用户体验的博弈;

1. 适配不同能力的设计师

专家模式:保留完整的节点和参数,让这类设计师自由编辑

精简模式:隐藏底层参数,仅仅提供目标导向的选项

自动化操作,根据提示词推荐采样器、cfg 数值等组合,例如提示词是自然语言,那就匹配关于 flux 模型的专属采样器;

2. 智能节点推荐引擎

目标推荐:输入“生成赛博朋克城市”后,自动推荐“SDXL 模型+ControlNet 边缘检测+色调调整节点”;

行为预测:分析历史工作流,推荐高频使用的节点组合(如“LoRA 模型+分层提示词”);

3. 可解释性反馈面板

参数与结果的实时性:实时显示调整 CFG 值对图像细节、对比度的量化影响。

节点的贡献度分析:生成后标记关键节点(如“ControlNet 贡献度 72%”),帮助用户理解流程。

ComfyUI 揭示了生成式 AI 时代的核心矛盾——技术的能力越强大,人类越需要承认自身认知的局限性。工具设计不应追求“上帝模式”,而需寻找“刚刚好的控制权”

给用户“扳手”而非“零件库”:提供高层级调节维度(如“画面精细度”“风格偏离度”),隐藏底层技术参数,并不是每个设计师都是工程师的角色;大多设计师的角色只是维修工;

拥抱“不完美的人性”:允许用户保留“我不知道为什么要调这个,但调了就有用”的玄学操作,而非强迫所有人成为 AI 工程师。

重新定义“控制”:从“绝对掌控流程”转向“有效影响结果”,让 AI 的不可预测性成为创意催化剂而非焦虑来源。

来源:梦想精通设计

相关推荐