国产大模型黑马的首个推理模型和o1PK后，我发现了AI深度思考的大问题

360影视 2024-11-22 14:52 19

摘要：昨天，DeepSeek 新推出 R1-Lite 推理模型的预览版本，使用强化学习训练，号称不仅媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

时至今日，再有哪个厂商出来说自己对标 OpenAI，大家都当宣传口径看一看——也就那么回事吧。

但露相不真人，真人不露相，现在还能打出这个旗号的，不乏有些真本事在身上。

昨天，DeepSeek 新推出 R1-Lite 推理模型的预览版本，使用强化学习训练，号称不仅媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

通过 DeepSeek的 chat 平台，我们体验了一下这款最新的模型。除了它的实力之外，另一个问题浮出水面：思维链真的有那么香吗？

目前 DeepSeek 大方开出每日 50 次免费深度思考额度，链接指路：https://chat.deepseek.com

两眼一睁就是做题

来吧，既然是主打推理的模型，肯定是逃不开做题的，两眼一睁就是做题。

首先是经典提问：strawberry 数字母。Strawberry 已经成了固定操作，ChatGPT 甚至把它放到了启动页面上。

还有，比较 9.9 跟 9.11 哪个更大，以及变体问题。在比数字上，DeepSeek 答案是没错的。但深度思考模式下处理这样一个简单问题的时候，思考记录长达 500 多字。

不开启深度思考模式，反而简洁明了得多。

在 strawberry 的问题上普通模式错了，深度思考模式也错了。拉开它的思维记录，最后一句话是这样的：

很好，我知道你很有自信，但先别太自信，这也没做对啊。

DeepSeek 似乎一直没办法正确面对 strawberry 这个单词，X 用户也反映了这个问题。

当我拉开深度思考的记录时，好家伙，这一大篇小作文，超过三百字。而且内容太过于搞笑，背下来就能登上脱口秀舞台。

实际上模型出错不足为奇，或者说，这两个经典开局，做错还是做对并没有那么生死攸关。但是以什么样的方式做错 or 做对，就很重要了。

后来有一个反推问题，让它给我几个包括两个或以上「r」字母的单词，过长的思维链让它直接卡 bug 了……

不过，在做过的题上，它表现没什么问题。在输入一道 AIME 真题之后，即便不启动深度思考模式，解题过程也很清晰。

AIME 号称是全美最高难度的数学竞赛，所以这个解题过程到底正不正确，咱也不知道了。下面是官方的参考答案，懂行的朋友们可以对比检验一下。

这几个理科题其实就可以看出来，思维链，真是一把双刃剑，而且落地形态有点迷惑。

在此之外，还有几个日常题目。比如天气预报和穿衣建议。

注意 chat.deepseek 不能联网，调用不了任何实时资料。也不能画图、表格等等。比如下面，尝试让它制作一个灌篮高手的人物关系图。

目前来看它主要是作为一个让大家可以一窥模型能力的简易产品，没有做太多的功能。可以用来尝试，但显然无法胜任生产力助手。

综合考验

从 o1 的推出开始，后面陆续涉及到推理能力的模型更新，我们都做过体验和测试。在这个过程中也意识到一个问题：单纯的数学题，并不能很好的展现一个模型的综合能力。

数学题的确有一个不容置喙的唯一答案，但让模型去找到那个唯一答案，并不能全面展示它的能力。

上个月，苹果发布过一篇论文认为 LLMs 缺乏真正的数学推理，主要依赖于模式匹配。

苹果的研究人员不认为大语言模型能进行「真正的」逻辑推理，而是依赖模式匹配。只要稍微改变一些细节（名字、地点、货币单位等），就会影响模型的发挥——改动数字就更不用说了。

换句话说，模型就好比一个吞下了无数本题库的做题家，只要题目和数据集里的「真题」有几分相似，就能正常反应。而离题库越远，改动越大，就越难有好的表现。

苹果研究人员对比后发现，即便是无关的细节改动，也会显著影响模型表现

就像学生对某一次考试的题弄明白了，下一次同样类型的题换个数，又不会了。这时候数学老师都会语重心长地说：这叫做没有吃透，不具备核心层面的解决问题的能力。

对于一个想要进入实际应用场景的模型来说，能否根据当前的信息反应，才更有说服力。为了更好的测试这方面的表现，我们的一位综艺爱好者同事，在网上找来了一套有趣的测试题：水果商店。

这是一套由桌游改编而来的游戏，在原版游戏里是多玩家参与，每个人将会抽取两种水果，并为自己的水果出价。价最低者，揽下整个品类的售卖权，或者跟同价位玩家平分收入。价最高者，直接出局，收入为 0。

这就导致在实际游戏中，不仅要有快速计算的能力，还要有能吃透规则、结盟搭伙的能力。由于一个出价就能牵一发而动全身，还需要有整体思考的能力。

为了简化流程给模型做测试，具体的数据我们就用 python 脚本跑了一下，让模型做整理就好。但还是为模型捏了一把汗：光是规则介绍就老长了，模型还得先看懂。

这是对模型的独特挑战：如果只是真人玩家，只需要关心自己的出价和收入就好，需要处理的信息反而没有那么多。但是模型需要在理解规则的情况下，综合所有出价，做交叉计算。

我们拿 o1 作为对比，DeepSeek 第一轮就出现了错误，把玩家 2 的收入算错了。

不过，DeepSeek 的反思和修正能力非常惊人。在指出错误之后，能及时的修正数据，且不影响后续的计算，不是每个模型都能做到这一点——智谱究竟是在嘴硬什么……

这是 DeepSeek 最惊艳的地方，即便开头出现了错误，后续的所有计算全都是正确的。随之而来的是思考时间和过程的拉长。到了第三轮出价，思考记录简直逆天，来到了惊人的 1600 字。

1600 字的记录是什么概念——相当于两篇高考作文。

在对其它模型的测试中，第三轮出价或多或少都会出错。DeepSeek 的推理和计算能力有目共睹，只是，这个思维链的应用，显得有些迷惑。

作为一项优化模型的技术，思维链的价值无需质疑。o1 是最典型的例子，注入 CoT 之后，ChatGPT 的表现焕然一新。

而自此之后，模型的默认打开方式就是，全透明地展示思考过程。甚至像 Claude 这样不打明牌的产品，也有尖子生用户，通过 prompt engineering 的方式，自己动手改造成思考透明的「类 o1」设计：Thinking-Claude。

随后各家都紧随其后，快步跟上。于是，大模型产品们，纷纷向用户打开了自己的脑回路，展示自己每一步的推理表现。这一次 DeepSeek 更加是「掏心掏肺」。

但当我看到一千六百字的思考记录时，着实有点恍惚：所以这是要拿来干嘛？

在合适的量级里，思考记录可以成为 debug 的参照。比如说第一轮出错时，我能看到它是在哪里出现的问题，继而更明确地指出错处。

但是当思考记录超过一千字的时候，逐字逐句研读就失去了意义——AI 本来是为了给我解决问题的，而不是来制造新问题的。

在产品经理们先下手为强的环境里，这个问题好像还没有被讨论过：思维链有必要完全展示在用户眼前吗？更确切地说，模型的「思考过程」应该以什么方式出现在用户面前。

就这样赤裸裸的展现出来吗？冗长的思考记录，究竟是能提高用户的使用体验，还是更困惑了？

这些都是非常值得深究的问题。或许在短时间里，一部分功能和特性，是「为了存在而存在」，但那不会长久。每一项功能，都会需要找到真正的自身价值。

来源：新浪财经

标签：模型推理模型 o1pk

本文地址：https://news.43u.com.cn/a/34198.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!