摘要:我是昨天在调用 VolcEngine DeepSeek V3.1 帮我整理一份物理试卷的时候发现的问题。我的用户输入包含了「极板」这些词。问题就从这里开始。
我是昨天在调用 VolcEngine DeepSeek V3.1 帮我整理一份物理试卷的时候发现的问题。我的用户输入包含了「极板」这些词。
问题就从这里开始。
输入1
输出1
输出2
嗯……这给调成啥了。
但是我当时没把这个当回事,以为是 Cherry Studio 没调好设置导致的。 今天我又玩了玩 Trae ,试一下它的 Agent 能力。 结果还是有一些随机出现的「极」。
没办法,只能调一下官方 API 修复这个问题了。 结果在修复的过程中又出现了这个问题。
输入,可以看到原文这里没有「极」字。但是输入的其他地方有错误的「极」字。
在原先没有「极」字的地方出现了「极」字
以下是我的 User Prompt:
实测,官方网页/API 能复现,概率不高,但多试几次就能出来。VolcEngine API 复现概率非常高。
同时,如果将错误搀入的字符「极」字改为其他的字符,则官方 API 出问题概率下降,但 VolcEngine API 出问题概率仍非常高。
答主@hzwer 黄哲威
竟然有这么合适我答的题,我用小模型 + 开源数据蒸馏 R1 的时候也见到过类似 bug。
大模型做编程题的时候会有一种恶性 pattern,是枚举数列,比如说 「素数表 2,3,5,7 … 」 无限枚举。 R1-0528 这个模型比较神奇,它会在枚举一段后停下来,变成 「素数表 2,3,5,7 … 997,极长的列表」。
这个极字经常出现在大量恶性重复之后,切回正常的推理过程。
也有「90000000...0000 极大的数字」这种 。 在 thinking 末尾循环出不来的时候,会见到突然蹦出一个极字然后 终止,触发率千分之一吧 。
我肉眼看了很多 R1 输出发现的 (其实不是很大工作量,只要把 R1 超长的 response 拿出来扫几眼,就能看出很多问题了,还有大面积空白字符,一直 But + 短句重复,或者到 thinking 末尾出的英文字都破碎的各种问题) 我认为原本是 sft 数据合成甚至是构造预训练数据的时候没洗干净引入了「极长的数组」这种怪东西 (从 R1 的行为看,似乎大量使用了 RAG 方法来造难题的解答) , 然后 RL 的时候模型直接把这个字当某种终止符或者语言切换标记使用了。
如果 R1 迭代的时候没洗干净数据, 模型自蒸馏传染到正常的输出过程里也正常。
答主@董不懂在摸鱼的回答
我看了国内外论坛上各种分析 DeepSeek V3.1 输出 Token 被「极」随即替换的问题, 大概有三种或者更多可能的原因,老董叔觉得都有一定可能性,但其实都不确定:
1. 第一种就是高赞的分析,因为涉及到大量列举或者数字长度过长需要截断 clip 的训练预料时,会出现极,这时候从含义上来说,对应英文单词是extreme,于是模型把极学成了某种特殊的 special token,这可能是一种原因,但不确定;
2. 另一种情况,也有一定可能性问题是出现 tokenizer 上,Reddit 论坛上也提到了。
我打开官方 huggingface 开源给出的 tokenizer,可以查出来对应的 index, 极(token id 2577) 距离省略号…………….(token id 2576) 很近, 众所周知 DeepSeek 会竭尽全力进行各种工程优化, 特别是量化,以及可能的 moe bug,都可能会造成 Softmax 计算中发生了精度溢出,于是解码对应 token index 时整岔劈了……
3. 第三种可能的原因是我看很多人提到DeepSeek输出内容中「极速赛车」之类的内容,总是会多次出现,哈哈哈,我没有专门花时间去复现过,如果确实如此,那这也有一定概率,就是典型的预训练 pretraining 中语料大量污染问题了,当然这也会造成极这个 token 出现频率大增。
4. 我看还有第四种猜测的原因,等有空了补充一下,未完待续—— 我们不妨试试无奖竞猜,大家把自己认为可能的原因打在评论区,等 DeepSeek 官方 debug 排查验证之后,我们再来揭晓答案……
知友讨论
@王阳:
何尝不是一种 latent reasoning
@木正小强:
感觉像被注入了,我遇到过好多次 "极速赛车网 "这几个字
@张睿杰:
这么看来,根据道金斯的定义,bad case 或者脏数据已经成为了某种拥有自我复制能力的 meme 或者病毒,可以通过感染一个模型 A,传播到另一个蒸馏模型 A 的模型 B,实现某种程度的大模型流行病学
@还是不注名好:
如果一个问题,官网频率低,第三方频率高。而且不是所有第三方平台都高频出现,而是只在部分第三方平台的部署高频出现,但却有一致性。
那很明显,是有些第三方平台给你在精度上量化了。
来源:小镇评论家