摘要:值得一提的是,新版通义App还接入阿里最新推理模型千问QwQ-32B,这款模型以32B的参数量,在数学推理、编程能力上与671B的DeepSeek-R1 旗鼓相当。此外,在多项通用能力测评中,QwQ-32B的得分超越DeepSeek-R1。一经发布,便获得全球
作者 | 陈骏达
编辑 | 漠影
什么,通义App现在长这样了?
近日,阿里旗下的通义App迎来升级,UI、交互体验到背后接入的模型都全面重塑,整体外观大做减法,而内置模型、工具的能力则进一步升级。
进入新版通义App首页,主智能体引入“邻家女孩”这一富有亲和力的新形象,能胜任大部分应用场景中的需求。
右滑则是丰富的智能体生态,将原版通义App的工具、角色、频道等页面整合,呈现更为直观。
左滑后,用户的对话记录、创作的图像、视频与创建的智能体都一览无余。
值得一提的是,新版通义App还接入阿里最新推理模型千问QwQ-32B,这款模型以32B的参数量,在数学推理、编程能力上与671B的DeepSeek-R1 旗鼓相当。此外,在多项通用能力测评中,QwQ-32B的得分超越DeepSeek-R1。一经发布,便获得全球开发者的关注与赞赏。
已经有不少网友体验了升级后的通义App,其更快的响应速度、更丰富的交互体验获得好评,还有网友感叹,新版通义让“最强AI飞入寻常百姓家”。
通义App迎来升级后,智东西第一时间全面体验了其在交互、模型、工具等方面的新变化,在阿里加码AI to C的大背景下,新版通义有望成为更实用、更贴心的个人AI助手。
新版通义App以超级智能体作为交互中枢,用户在通义首页能问、能聊,还能让智能体进行图片理解、图片生成,翻译、写作等任务。
此外,通义首页还会推荐基于其他模型或者具备其他不同功能的智能体。目前,基于Qwen-QwQ-32B的被放在了首页的推荐栏中。用户只需点击,就能与这款新模型进行对话。
数学、代码类问题一直是通义模型家族的强项,实测中,搭载QwQ-32B智能体的通义App回答了从高考压轴题到AIME真题等不同难度的数学问题,还编写了一个简单的游戏。同时,为了避免大模型上网找答案,测试时联网搜索能力均已关闭。
下方是2024年高考全国甲卷理科数学的压轴题,在先前的测试中,智东西曾让DeepSeek-R1解答,R1用时80余秒,给出了正确答案,但解题流程不符合评分标准中的规范。
测试中,QwQ-32B在解答这道题目的用时略长于R1,这主要是因为它在思考过程中进行了更多的反思、验算等流程,还尝试了不同的解题思路。
▲QwQ-32B的部分思考过程
最终,QwQ-32B两个小题的答案都完全正确,解题格式较为规范,不过,它漏掉了一个踩分点,无法拿到满分。
智东西又让QwQ-32B尝试了一道2024年的AIME真题。在面对英文题目时,Qwen-32B也毫不露怯,会自动用英文思考,不到一分钟,QwQ-32B便给出了正确答案,这一次它的证明过程没有破绽。
测试完新版通义App中QwQ-32B智能体的数学能力,我们再来看看其编程方面的实力究竟如何。智东西让QwQ-32B编写了一个基于HTML的五子棋小程序,并加入了“三三禁手”、“长连禁手”等限制黑棋的规则。
几分钟后,QwQ-32B用不到200行代码完成了这一任务,还解释了禁手检测的实现逻辑。细读它的思考过程,还能发现它自我迭代了几版实现方法。
不过,作为一款手机App,通义在代码场景中更常见的应用或许是拍照解释代码。智东西在先前的程序中埋入了一个bug,导致游戏无法判断胜者,无法结束。
由于QwQ-32B智能体目前暂时不支持图片上传,我们将这一挑战交给了通义App中的主智能体。据了解,在代码类问题上,主智能体会调用通义千问的Qwen-MAX模型。
简单分析后,通义给出了几个可能的原因与修复的代码,复制粘贴后再进行微调,游戏程序便能够正常运行。
如果说数学、代码等能力更偏向理科,那接下来的几道测试题则更侧重于文字推理、百科知识的考查。
目前,有许多大模型都在历史类问题上表现不佳,尤其是在涉及资料较少的国家和民族时。智东西让QwQ-32B智能体分析了“南非有没有锁甲”这一问题。观察它的思考过程,我们可以发现,QwQ-32B从不同年代、不同民族的角度条分缕析地回答了这一问题,答案也符合史实。
至于下方这类无厘头的问题,通义则采取了“用魔法打败魔法”的策略。
通义App中的QwQ-32B智能体引经据典,从经济学视角、生物学视角逻辑学视角等5个不同角度给出了理由,让人无可辩驳。
通义App的一大特色是其专业能力,如实时记录、拍照讲题、健康问答等领域。新版通义App中,实时记录功能新上线了脑图功能,录音后不仅能生成会议纪要,还可以将会议内容生成脑图,可谓是打工人福音了;拍照讲题功能现在不光能给出答案解析,还能持续追问,允许用户“打破砂锅问到底”。
接入新模型、功能升级等调整进一步提升了新版通义App的实用性,而产品界面、交互体验的变化则是从设计层面,让通义App更加易用,也更具温度。
过去的通义App同样具备不俗的实力,但在用户友好度上仍有优化空间,未能向用户充分表达、沟通其实力。
以原版通义的主页面(下图右2)为例,可以看到界面以文字为主,并集合了不少其他功能。这种设计虽然可以帮助用户快速跳转,但也可能导致用户在刚开始使用时摸不着头脑,需要一定的学习成本。
新版通义App通过做减法,让产品设计更加简洁清爽,突出了核心功能,也拥有了更具亲和力的交互体验。
现在,打开通义App后,映入眼帘的是更具亲和力的人物形象,通义官方将其称之为“邻家女孩”。这一形象可以视作是整个通义智能体生态的代言人,给人以亲切、温暖的感受。
对大多数用户而言,首页主智能体是他们与App交互的核心入口,这一形象的变化能够迅速拉近用户与产品之间的距离,降低使用时的陌生感和距离感。“邻家女孩”下方的文字还会不断变化,询问用户的心情,或是用表情符号让文字更为活泼。
在使用通义App的过程中,我们也能感受到与这一形象相符合的贴心体验。通义App在QwQ-32B智能体中推荐了这样一个问题:“如果你是人类,如何过幸福的一生?”模型给出的回答不仅包括实操建议,还撰写了鼓励的话语,既贴心又实用。
新版通义App在其他方面的设计和调整,也进一步降低了用户使用的门槛。例如,保存用户过去聊天记录的板块原本被分为助手、工具和角色,这一页面还融合了与通义进行语音交互的功能。
而在新版通义中,左滑后进入的对话记录、个人资产页面划分更加易懂,被分为对话记录、我创建的、我聊过的智能体,用户能通过这些名称更直观地找到自己所需的信息。
使用频率很高的拍照讲题、实时记录等功能,被调整到主页输入框上方,用户可以一键切换。
右滑后,通义App将代码、纪要等生产力工具和视频生成、绘图、角色扮演整合到一个统一的智能体生态中,在中心位置呈现用户最新使用的智能体与其他热门应用,让用户无需过多点击就能直达目标。
一些趣味的AI玩法能让用户使用App的体验更加轻松,不过,并不是所有用户都会高频使用此类应用。在新版通义App中,这些智能体的位置被放在实用工具之后,用户可以下滑点击,或是通过搜索直接访问。
谈及这些升级,通义产品负责人认为,他们不仅要通过强大的AI技术能力帮助用户解决实际问题,还要让用户在使用中感到更方便、更懂我。AI应用的未来不仅仅是简单的提效工具,更是一个能够理解、陪伴并提升用户生活质量的贴心AI助手。
新版通义App的发布,正值AI Agent应用的爆发期。2024年底,Anthropic发布了MCP(模型上下文协议),以统一标准规范了大模型应用程序与外部数据源和工具的集成。
进入2025年,OpenAI发布了Operator预览版本,支持购物、订票等服务;而Deep Research这类深度研究工具,也体现了Agentic AI的思想。
在过去,通义已经在基础模型领域有深厚积累,涵盖文本、图像、语音、视频,开源模型广受全球开发者认可。此外,通义App中积累了大量专业领域智能体,已经拥有一定的用户认可,但尚未完全破圈。
新版通义App主页面引入的超级智能体,有望凭借新的形象,成为加强用户与智能体连接的纽带。
通义App的C端化转向,也符合这段时间以来阿里的AI To C战略。去年年底,通义App团队从阿里云分拆,并入阿里智能信息事业群,而原有基础模型团队则仍然保留在阿里云体系内。
产品与研究的相对独立,让通义App与一线用户离得更近,也能更准确地把握用户的需求,响应市场变化。
未来,通义App会持续上线更多千问大模型新能力,还会把阿里多个先进模型能力融入到产品应用中,为用户提供更加丰富的智能体验。
作为潜在的发展方向,现有的主智能体或许能在未来成为智能体分发入口,根据用户需求智能调用相关智能体,进一步提升用户体验。
本次通义App的全新升级,不仅仅是技术层面的进化,更是产品理念和用户体验的全面焕新。
要真正做好一款To C产品,技术硬实力仅仅是基础。如何挖掘、创造用户的需求,找到用户的高频使用场景,创造与用户的情感连接,是任何一款想要获得To C成功的产品的必答题。在“Agent元年”推出的新版通义,正探索这些挑战的最新解题思路。
来源:智东西