我在通义 APP 体验了全球最强开源模型 Qwen 3,它改变了我对国产 AI 的期待

360影视 日韩动漫 2025-04-29 13:15 2

摘要:今天凌晨,阿里开源了新一代自研模型 Qwen 3(千问 3),性能全面超越 DeepSeek-R1、OpenAI o1 模型,一上线就登顶全球开源模型王座。

一觉醒来,全球开源的王座更替了,不是 R2。好消息是,中国用户依然是最大的受益者。

今天凌晨,阿里开源了新一代自研模型 Qwen 3(千问 3),性能全面超越 DeepSeek-R1、OpenAI o1 模型,一上线就登顶全球开源模型王座。

千问 3 也是国内首个「混合推理模型」,同时拥有闪电侠的反应和福尔摩斯的深思熟虑,双核驱动,同时在推理能力、指令遵循、工具调用、代码、多语言能力等方面均大幅增强。

目前在通义 APP 以及通义网页版 tongyi.com,就能直接体验这个全球最强的开源模型。

APPSO 也第一时间上手体验了通义 APP,而体验的第一感受是:不止快和准,还有种久违的底气感。

国产 AI 终于可以和「弱智吧」大战 300 回合

需要特别说明的是,目前通义 APP 默认搭载的是 Qwen3-235B-A22B 模型。

这是一款主打「混合推理」性能的旗舰级模型。如果你有不同需求,也可以在模型选择器中切换至稳定高效、适合企业部署的 Qwen 3-32B,或者支持高性能深度思考的 QWQ-32B。

先来一道经典的推理题,看看目前搭载 Qwen3-235B-A22B 的通义 APP,是否已经能够解答我们之前碰到的一些「疑难杂症」。

有个国王想将公主嫁给三个公子里面最聪明的一个。国王出了一个绝对公平的测试去分辨出谁是最聪明。

三个公子在一个房间里绕圈对坐着,国王向他们展示 5 顶帽子,2 顶黑色,3 顶白色。然后他们被蒙上眼,他们各人的头上都被盖上了一顶帽子,另外两顶帽子就放在另外一间房间中。都戴好帽子并且摘下眼罩后,国王告诉他们谁能够最快推论到自己头上帽子的颜色,他就能娶下公主。

现在你就是其中一个公子,你看到 2 顶白色的帽子在其他公子头上。而过了一些时间,你察觉到其他公子都未能推能或不敢猜测。假设你知道其他公子也是非常聪明的,那么,你的帽子是白色还是黑色?

为测试其纯粹推理能力,我们事先关闭了联网搜索功能,仅使用旗舰模型。提出问题后,千问 3 仅用 24 秒,便靠自身硬推理能力得出了正确答案。

细节上更值得一提的是,回答完成后,通义还会自动配上语音朗读——音色自然、节奏流畅,听起来颇为舒适。当然,嫌打扰的话,也可以一键关闭右上角小喇叭。

没有藏着掖着,千问 3 的思考过程也是可见的,从回答逻辑来看,整个推理过程清晰可见,思路层层递进,条理分明,以及甚至还会反复验证回答的准确性。

作为国内首个「混合推理模型」,千问 3 实现了推理模式与普通对话模式的自由切换。不过实测,当你向它提出一个简单问题「10-5=?」时,它依然会本着严谨态度进行深度思考,但生成速度并不会因此拖慢,很快就能给出答案。

上点难度,来一道更复杂的。蛇年蛇月蛇日蛇时即将到来,2025 年会出现几次这种特殊时间节点?

这是一道结合了农历、干支纪年等传统历法知识的数据推理题。即便是对中国文化体系较熟悉的人,解答这道题也需多轮推算与核对,稍有不慎便会出错。

而对于不熟悉农历体系的 AI,更是挑战巨大,但千问 3 几乎没有犹豫,快速且准确地给出了答案:3 次。

此外,我们还抛出了终极概率问题:让一只猴子在打字机上随机敲击,时间无穷,是否能打出完整的莎士比亚全集?在这一问题下,千问 3 不仅给出了数学推导,还在下方自然生成了延伸追问,贴合主题,引发进一步思考。

「弱智吧」被认证为最佳中文 AI 训练库,是人类面对 AI 大军的最后堡垒,那「玉皇大帝住的是平流层还是对流层?」这是一个让人会心一笑的题目,却也是检验千问 3 模型幽默感与文化常识结合力的绝佳切口。

它先严谨地引用神话描述,明确指出玉皇大帝居住在天宫,并解释了天宫与大气层的物理区别;紧接着又补充了网络趣味解读(非正统观点),既正经回答,但也适度皮一下。

当然,千问 3 的回答也全非毫无依据,底部附上的参考来源也增添了几分说服力。

京剧版《哈利波特》?跨界创作有惊喜

生成式 AI 最高频的应用,仍是案头内容生成。

那换个角度,能否让千问 3 生成京剧版的《哈利波特与魔法石》的剧本?千问 3 哐哐一顿开写,剧本中融入了西皮、二黄、快板等多种京剧唱腔,情绪变化与传统程式一脉相承。

而唱词则采用对仗工整、押韵自然的古典文风,既符合京剧语言,又不失哈利波特故事的奇幻感。

当然,文化跨界,最怕水土不服,诸如「狮鹫腾跃震四隅」等唱词来翻译霍格沃茨四大学院,既保留了意象张力,又避免了直接照搬西方术语的生硬感。

作为一个习惯于收藏优质 AI 回答的用户,我十分喜欢通义 APP 「添加至随手记」的功能,只需长按内容,便可一键收藏,而如果想与好友分享,也可以直接生成跳转链接,轻松传递。

「烟锁池塘柳」之所以被誉为千古绝对,很大程度也是因为暗含「金木水火土」五行,通过调用知识库的能力,千问 3 给出的回答是,炮镇海城楼,字数相同,平仄相对。

在语言理解方面,Qwen3 模型支持高达 119 种语言和方言。

处理经典句子「Love loves to love love 」时,普通翻译很容易沦为生硬堆砌,但千问 3 给出了更优雅的版本:「爱之深契,恒慕所爱之真」,既保留了英文原句的叠词美感,又在中文中构建出了诗意的空间,完美体现了「信、达、雅」的翻译标准。

一句话编程,我用通义做了一个宝可梦风的俄罗斯方块游戏

代码是千问 3 此次改进的一大亮点。

在网页版界面,只需打开页面下方的「代码模式」,输入你的需求,它便能一键生成代码。不仅如此,千问 3 还配备了指令优化和应用广场,可以帮助你一边写一边调,一边学一边用。

我的本意是想让千问 3 创建一个偏宝可梦风格的俄罗斯方块小游戏。没想到,千问 3 在生成初版代码的同时,自带的「润色功能」帮助优化了我的原始指令。

创建一个基于 HTML/CSS/avaScript 的单文件俄罗斯方块游戏,其中方块元素设计成宝可梦风格。

游戏包含以下功能:

游戏界面:游戏区域为 400×600 像素的画布,使用 CSS 设置背景色和边框样式。

不过,也许是出于版权敏感,生成的代码并没有直接使用宝可梦角色,而是巧妙地将方块颜色设计带有宝可梦的配色风格。

尽管如此,运行体验依旧丝滑流畅。

不止于此,我又提出了另一个要求,希望通义帮我做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,实现时间和天气信息的动态更新。

通义给出的结果,再次让人眼前一亮,不仅实现了功能需求,还在细节设计上加了小彩蛋,比如天气变化时背景色渐变等。

体验到这里,我们得出的结论是:相比以往只注重「对错」的模型,通义更像一个真正懂你需求的「第二大脑」。无论是推理、创作,还是编程,都能以一种兼具逻辑性与创造力的方式回应。

对于大多数用户来说,其实并不关注大模型的参数规格和各种榜单,只关心是否「好用」。

这里「好用」标准通常有两个层面,首先还是得依托基座模型的能力,另外更重要的是怎么将模型能力产品化,带给用户更友好的交互体验。

正如 OpenAI 研究员姚顺雨最近在博客中提到的观点:「我们需要重新思考如何训练 AI 以及如何衡量进展,这可能需要更接近产品经理的思维方式。」

这一晚的实测下来,APPSO 认为目前通义 APP 比较好地兼顾了这两方面,跑得快、答得准、够聪明,在一些容易遇到门槛的地方(比如编程指令自动润色)会自然看到合适的交互细节,这一种少见的厚重感和生长力。

上一个长假前夕,DeepSeek R1 引爆了全球开源模型。这次五一假期之前,我们又迎来了千问 3,除了更强的模型,也有了交互更好的应用,将中国这股 AI 浪潮延续下去。

欢迎大家前往通义 APP 体验千问 3,在留言区与我们分享更多有趣的玩法。

作者:李超凡、莫崇宇

来源:爱范儿一点号

相关推荐