讯飞星火大模型上线隐式水印,AI内容安全再升级

360影视 欧美动漫 2025-09-09 13:56 1

摘要:9月1日,《人工智能生成合成内容标识办法》发布生效,明确要求服务提供者对生成合成内容添加标识,任何组织和个人不得删除、篡改、伪造、隐匿AI生成合成内容的标识,这也是国家层面对AI生成内容监管的关键举措。

随着大模型的发展与普及,AI生成内容随处可见。一方面,生成式AI实现了效率提升、灵感激发,但同时也带来了严重的虚假信息传播、深度伪造、恶意输出等问题。

9月1日,《人工智能生成合成内容标识办法》发布生效,明确要求服务提供者对生成合成内容添加标识,任何组织和个人不得删除、篡改、伪造、隐匿AI生成合成内容的标识,这也是国家层面对AI生成内容监管的关键举措。

近日,科大讯飞联合中国科学技术大学网络空间安全学院、安徽星盾智能科技有限公司共同研发了新一代生成式文本隐式水印技术,并正式上线星火大模型水印版,以实际行动积极响应政策号召,为AI生成内容安全规范传播再筑防线。

《人工智能生成合成内容标识办法》要求所有AI生成内容都要“亮明身份”,同时还指出AI生成内容标识包含显式标识隐式标识鼓励服务提供者在生成合成内容中添加数字水印等形式隐式标识

显式标识方面,星火大模型在上线之初就对生成内容附上了相关标识,此后对水印标识进行持续迭代,在不影响用户体验的同时,对大模型生成的文字、图片等各类内容给出更加明确的AI生成提醒。

讯飞星火大模型生成内容的显式标识

隐式标识方面,科大讯飞与合作团队研发推出的新一代生成式文本隐式水印技术,能够通过动态调整词元选择概率,在不影响生成文本质量的前提下,将水印信息编码进文本结构,相当于给生成文本中的每个词都加上了独一无二的“隐形指纹”,即使被改写、删减也无法抹除;同时,科大讯飞也配套研发了水印检测系统,能够精准识别隐式水印、判断AI生成内容来源。

星火大模型智能体生成内容被嵌入隐式水印后,通过水印检测系统检测出水印内容

在攻关研发过程中,我们实现了以下技术创新和突破:

首创“概率感知”词表重构技术:深度挖掘大语言模型生成时的内在概率分布规律,通过密钥驱动的词表空间重构算法,实现水印编码与文本内容的有机融合;

智能扰动嵌入技术:采用密码学级随机置乱技术构建动态映射表,既保障文本语义的自然流畅,又能精准调控概率分布,使特定区域词元采样概率定向增强,达到“隐于无形”的嵌入效果;

双保险检测技术:自主研发词元相对位置回溯技术,构建高精度水印检测矩阵;建立多维度置信度评估模型,让水印检测既灵敏又可靠。

新一代生成式文本隐式水印技术与水印检测系统不仅能有效锚定数字身份的“唯一性”,规范AI生成内容,还能在更多AI技术落地应用场景和领域发挥更多价值。

例如在内容创作领域,创作者使用AI进行辅助创作,隐式水印能够标记AI生成文本、图像、音视频的创作路径,并嵌入不可剥离的数据基因,在溯源后通过水印检测进行内容的精准识别,明确AI辅助创作的边界。

此外,在内容溯源上,网络上出现的AI生成虚假、伪造信息内容,隐式水印及水印检测能够自动检测和追踪违规内容生成的源头,助力AI内容透明化管理,减少侵权、诈骗等风险。

未来,科大讯飞也将严格执行相关政策规范,以用户权益和体验为原则,严守透明度和安全性底线,基于“显式+隐式”双重标识保障,探索更丰富、高效、实用的技术手段和方法,挖掘在更多场景中的应用潜力,为AI生成内容的安全保驾护航,为构建可信AI生态贡献力量。

来源:科大讯飞一点号

相关推荐