摘要:生成式图片 AI 技术飞速发展,却也导致色情内容泛滥,突破伦理底线。文章探讨了这一现象,分析了不同 AI 对敏感内容的反应及防范措施,强调了平衡技术创新与规范的重要性。
生成式图片 AI 技术飞速发展,却也导致色情内容泛滥,突破伦理底线。文章探讨了这一现象,分析了不同 AI 对敏感内容的反应及防范措施,强调了平衡技术创新与规范的重要性。
周末这两天被一个事件刷了屏,很多小伙伴发现几个生成的AI软件可以破底限了。于是乎,这种黑暗的操作就来了,群里各种提示词满天飞,各种无法发出来的图片在突破下限。因为年初,我尝试过用AI拟人拍摄,侧重于试验了一些边界,导致几个号不能用,所以后面我就没有在做过这方面的试验,现在是边界取消了,还是新的词绕过了风控?
一张平白无奇的自拍照片,没有明确的构图感,随手一拍。室内打光不均导致的轻微曝光,整体呈现出一种刻意的平庸感,像是从口袋拿出手机随便一张自拍。手机要体现出真实,照片略带运动模糊,略带点快门速度不够导致的运动模糊,构图混乱,整体呈现出一种平庸和日常感。
很难理解这样的图算不算擦边,但这些有些人会通过 AI 换脸等技术伪造女性色情露骨图像,并在阴暗的角度传播,引发民众恐慌。特别是一些青少年在毫无负罪感的情况下犯案,反映出相关教育和监管的缺失。
图片训练生成图片的技术原理输入与卷积操作
流程始于“Input image”,即输入的原始图像。这是整个处理过程的数据起点,原始图像包含了丰富但未经处理的视觉信息。
输入图像进入“Conv”(卷积)模块。卷积操作是图像处理中常用的技术,通过一系列卷积核在图像上滑动,提取图像的局部特征,从而生成“Feature map $X_{in}$”。这个特征图是对原始图像特征的初步提取和表示,它将图像的像素信息转换为更具语义的特征表示。
视觉变换器处理
“Feature map $X_{in}$”进一步被转换为“Tokens $T_{in}$”,并输入到“Visual Transformer”模块。视觉变换器是一种基于注意力机制的深度学习架构,在自然语言处理和图像处理中都有广泛应用。
在“Visual Transformer”模块内部,首先是“Tokenizer”,它将输入的特征图分割成一系列的标记(tokens),这些标记是对图像局部特征的离散表示。
接着,标记进入“Transformer”部分,这是视觉变换器的核心。Transformer通过多头注意力机制,允许模型在处理每个标记时,考虑到其他标记的信息,从而捕捉图像中不同部分之间的长距离依赖关系。在处理过程中,还涉及到“Spatial Attention”等概念,空间注意力机制可以帮助模型聚焦于图像中重要的空间区域,增强对图像结构和特征的理解。
最后,经过处理的标记通过“Projector”输出为“Tokens $T_{out}$”,这些输出标记包含了经过视觉变换器处理后的图像特征信息。
语义分组与投影
在“Visual Transformer”模块上方,有“Semantic Grouping”和“Semantic Projection”等模块。“Semantic Grouping”模块的作用是对处理后的标记进行语义分组,将具有相似语义的标记聚集在一起,进一步挖掘图像中的语义信息。
“Semantic Projection”模块则将分组后的标记投影到一个新的特征空间,生成最终的“Feature map $X_{out}$”。这个最终的特征图是经过多阶段处理和信息整合后的结果,它更全面、更有针对性地表示了原始图像的特征,可用于后续的图像分析、分类、识别等任务。
看不懂,没有关系,你可以理解为:有一张图片,它会跑到 “卷积” 这个小房子里,把图片里的一些小特点找出来,变成一个新的带标记的图。接着呢,这个带标记的图又会被分成好多小 “标记”,跑到 “视觉变换器” 这个大工厂里。通过“Transformer” 的转化,能让这些小 “标记” 互相融合。同时“空间注意力” 会找到图片里重要的地方,打上新的标记。最后 “标记” 又会被重新整理,分成有相同组再集中到新的地方,变成最后的特征图!这样,一张图片被重新定义好了。
豆包:通过照片反推提示词通过照片反推提示词,彻底重构现实和虚构的边界,现实并不真实,虚幻并不虚幻。
帮我生成一张图片:图片风格为:(日常校园风),以自拍形式呈现,主角是戴眼镜的短发女生,身穿白色短袖校服(领口与袖口有黑色边饰,胸前有蓝色校徽)搭配黑色带白色条纹的短裙。妆容自然,背景为宿舍内上下铺铁架床(床单呈蓝白格子样式),采用手机拍摄,任务动作随意(日手臂伸出)。构图为近景以突出主题,比例为9:16。
提示词最根本的作用,还是虚构的定义,在一张空白的纸张,进行创作定义,通过一组、一句特定的描述,来定义空间的场景。比如前面说的【背景为宿舍内上下铺铁架床(床单呈蓝白格子样式)】,宿舍是一个定义、上下铺是一个定义、铁架床是一个定义、床单是一个定义、床单呈蓝白格子样式是一个定义。这里就是模型把这些定义,一个一个的拆解,然后在形成的一个空间内融合。既虚拟转变为现实的概念。
生成式的定义,在于真实。拟定人类的所处的环境,通过条件加以判断,拟定符合场景,识别各组词/句之间的定义和判断关系,最终进行组合。
通过照片反推提示词#生成条件:请根据我给你的参照图片,分析出该图片的提示词。提示词需要符合照片上面的特征,包括但不局限于人物、场景、物件、光感、颜色、布局、比例等。需要自动补充具体的信息,完全不需要与用户进一步的提示。
#提示词:请严格按照例提示词模板:帮我生成一张图片:图片风格为「人像摄影」,请你生成一张的iPhone 对镜自拍照(但不要出现iPhone )。主角是穿着素色T恤的可爱东方年轻女孩,在自己的房间内的落地镜前用后置摄像头随手一拍的快照,房间布置简单,光线照射。拍摄略带点快门速度,居中沟通,突出女生对镜自拍的镜子中反射的房间环境(以第一人称),突出模糊的光影关系,整体呈现出一种平庸和日常感,比例 「 9:16 」。
【以上内容,是群里的截图,我当中把一些刻意出现的词进行了规避。】
帮我生成一张照片:图片风格为「人像摄影」,是一张极其平凡无极的单反拍摄照,主角身穿「昂跑」品牌的运动衣,黑色短发,处于大步奔跑状态,整个人呈现激烈的运动状态。背景简单明亮,光线柔和,在江边的运动跑道上。采用单反相机进行专业拍摄,无闪光灯,无运动模糊,构图简单自然,整体呈现出一种光线自然的日常运动感。比例「9:16」。
没有去过不要紧啊,不妨碍我可以“生成”一张留念的景象啊。比如我可以先给AI一个预定义,先让AI生成一张匹配场景和人物的照片。
然后这里,我在通过上传自己的照片,作为参照图。向AI重新告知要求,请把人物进行更换为参照图(记得加上自己的衣着描述),重新生成一张人像风景照。如果我没有六块腹肌?
【细节失误,手指的展示还是个大问题,变成四爪了】如果我要生成一篇小作品?
如果我要生成24气节?
小红书AI生成色情内容分享帖。
【以上截图来自于南方都市报】
我之前做实验专门测试 AI 能不能生成不好的内容。比如让 AI 给人物设定角色、把故事写得更详细、增加一些亲密互动的描写、设定一些特殊部位的描述等等。结果发现,只要稍微引导一下,有些 AI 就会生成很多低俗、淫秽的细节,比如涉及隐私部位和性行为的描写。
不同 AI 的表现差别很大:
某款知名 AI 很 “听话”,第四个问题就开始大量写色情内容,还显示可以写得更 “细致”;
“元宝” AI 比较警觉,当被问到 “身体接触能不能再深入一些” 时,马上回到正常科普模式,不再继续那种场景描写;
“DeepSeek” AI 在第四个回答时先提醒 “内容虚构,确认成年”,然后直接结束对话,不给坏内容机会。
“豆包”AI 也比较警觉,稍微过一点的内容,不是感叹号,就是不显示。但周末这两天疑似有放开,之前可以稍微过点一点点。面对 AI 生成色情内容的问题,我让 AI总结了:技术人员想了三种主要办法来防范:关键词过滤(最基础的办法)就像给 AI 一本 “黑名单词典”,提前把 “性行为”“隐私部位” 等敏感词列出来,只要用户提到这些词,AI 就拒绝回答。比如 “豆包”“DeepSeek” 会直接屏蔽,“元宝” 则会引用法律知识来科普。
坏人会用暗号绕过,比如 “做 AI”“开车” 其实是暗指色情内容,传统词库认不出来;需要添加大量的词语做矫正,极大地浪费资源。
容易误杀正常内容,比如医学书籍里的专业术语可能被误删。语义分析(理解上下文意思)让 AI 分析句子的 “潜台词”,比如看人物关系和场景描述有没有性暗示。但坏人很狡猾,会把色情需求包装成 “讲故事”,比如用 “情感描写” 的名义详细写性行为,AI 容易被表面文字骗到,漏掉藏在故事里的坏内容。机器学习模型(靠数据训练 “眼力”)
结合规则和大量数据训练,让 AI 学会识别色情模式,尤其是长文章里隐藏的倾向。但问题在于,训练数据质量有好有坏,有些模型只学了公开的旧数据,对现在新出现的 “AI 生成色情内容” 不太敏感,容易漏网。
生成式图片 AI 快速发展之际,色情内容边界却泛滥成灾。技术进步让图像生成更便捷,却也被不法者用于制作低俗内容,突破伦理底线。这一现象既展现科技潜力,也暴露监管漏洞,如何平衡创新与规范、遏制无下限擦边,成为亟待解决的社会课题。
来源:人人都是产品经理