数字世界避“回音”！大模型“重复惩罚”机制拆解，实用原理速通

摘要：一位知乎用户在与ChatGPT进行长时间对话后，发布了一组截图。他的问题原本是关于人工智能的发展趋势，但AI的回答却在多段话中连续重复“人工智能是一个非常有趣的领域”这句句子。

一位知乎用户在与ChatGPT进行长时间对话后，发布了一组截图。他的问题原本是关于人工智能的发展趋势，但AI的回答却在多段话中连续重复“人工智能是一个非常有趣的领域”这句句子。

这引起了评论区的一片热议，有人调侃：“AI的‘复读机’本性暴露了。”

实际上从2022年起，不少开发者和内容创作者陆续反馈，在使用大型语言模型（如GPT系列、LLaMA等）时，经常会遇到内容重复、句式雷同的问题。

这种现象被称为“数字回音”，它并非AI故意为之，而是模型设计上的结果。

于是一种叫“重复惩罚（Repetition Penalty）”的机制应运而生，成为语言生成领域中控制重复的关键方法。

但这项机制真的如它的名字那般“有效”吗？它是否会“误杀”掉语言中应有的重复和节奏？

很多人第一反应是——语言天生就有重复。

比如在诗歌、演讲和民间说唱中，重复是一种常见的修辞方式。马丁·路德·金1963年的演讲中，“I have a dream”反复出现，成为历史经典。

中国古代诗词中也有大量“复沓”用法，比如《诗经》中的“蒹葭苍苍，白露为霜；蒹葭萋萋，白露未晞”。

但AI的重复问题并不是出于修辞目的，而是生成机制的副作用。

语言模型的基本原理是“预测下一个最可能出现的词”，这个过程是基于统计概率的累积。所以当某个词在训练数据中频繁出现，它的“logit分数”就会很高，模型在生成文本时，会优先选择这些高分词作为输出。

但这种选择会形成一个反馈环：一旦某个高概率的词被选中，它就会进入上下文中，增加它再次被选中的概率。

久而久之，便出现了“我明白了，我明白了，我明白了……”这样的重复输出。

为了解决这个问题，工程师们提出了“重复惩罚”机制。

它的核心操作并不复杂：在每次模型生成词汇时，对已经出现过的词进行“概率打压”，降低它们再次出现在输出中的可能性。

具体操作是在模型生成logit分数后，对重复词的logit进行动态调整，如果logit是正数（模型觉得这个词“可能”），就除以惩罚系数，如果logit是负数（模型觉得这个词“不太可能”），就乘以惩罚系数。

以一个真实例子为例：模型生成“我喜欢散步，因为散步…”时，“散步”这个词前面已经出现过，当系统检测到它为重复词后，假设设置了repetition_penalty=1.5，原本为7.0的logit会被调整为4.67，这种调整会在后续的Softmax阶段让“散步”变得不再那么“吸引人”，最终模型可能选择新的词汇，如“能”或“很”。