o1满血版最鲜测!这¥1500花得值吗?

摘要:AI在思考过程中依然会犯许多错误,但这次区别在于它有了自我纠正的能力,直到得出正确答案为止。

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

o1满血版这次不搞灰度了,发布仅4个小时后,已推送给所有(付费)用户

手快的网友已经耍起来了~

不过这次推出了更高级的Pro模式,每月200美元的定价也着实让人望而却步。

Pro模式和正式版o1究竟有啥区别,将近1500元的价格到底值不值?

许多好心人已经交钱帮大家测了。

如果让它完成一个数独,足足能思考5分30秒

AI在思考过程中依然会犯许多错误,但这次区别在于它有了自我纠正的能力,直到得出正确答案为止。

花了这么多钱,那对它的期待必然是很高的,有人上来就是一个“请治愈癌症”

AI也是毫不客气,直接在思维链中接下“正在治愈癌症”这个任务。别管结果如何,就冲它真的努力去尝试一点,就值得点赞。

26秒过后,o1 pro给出了它的详尽答案:

首先澄清目前没有治疗所有类型癌症的单一方法介绍现代常用多种方法组合的“鸡尾酒疗法”举例目前可被治愈的癌症类型补充未来有前景的研究方向最后建议用户寻求更专业的咨询

正如奥特曼强调的:Pro模式的优势在于,它可以更加努力地去思考最困难的问题

再来看另一个与生物医学有关的问题,o1 pro模式找出了同时满足6个复杂条件的特定蛋白质,用时53秒。

当然,如果真的给它一个超出能力范围的问题,它在努力思考过后也会适时放弃。

只用HTML代码复刻经典游戏《毁灭战士》。
o1 pro模式:这是不可能完成的。

o1正是之前内部代号“草莓”的模型,这次“Strawberry里有几个r”是大概率难不住它了。

甚至能够全程不提这个单词的情况下,把“strawberry中有3个r”这层意思用诗表现出来。

我们尝试把这首诗再喂给一个新的o1对话,发现它也能够理解这首诗想说什么,且给出了另一个符合条件的答案“Rasberry”(也就是树莓派的那个树莓),并且把诗翻译成中文。

为什么它没有想到Strawberry呢?展开思维链,发现它其实也考虑到了草莓,但决定“无核”这个描述更符合树莓,毕竟草莓表面还是有籽的,树莓的籽更小且藏在里面。

另外我们还发现,把诗翻译成中文这个指令,居然无需占用推理token,解谜完成后思考就结束了。

它很强,但也会出错,会把6个手指的手当成完全正常的。

鉴于AI生图也经常画出六个手指,人类的手指对AI来说就这么难吗?

所以到最后,200美元到底值不值?奥特曼也给出了官方回复:

绝大多数人用免费版或20美元版就足够了,200美元版只适合很小一部分人,他们想要大量使用,且愿意为解决真正困难的问题付更多钱。

20美元版o1也很强

如果确实不想一个月花200美元,20美元版o1也足够强。

现在它可以接受视觉输入,基于图像推理了。

有人把十年前的XKCD讽刺漫画发给它,当时需要5年才能解决的代码,这回o1当场就给写出来喽。

甲方:当用户拍照时,APP要判断他们是否位于国家公园……
程序员:这很容易,用地理信息查询,给我几个小时。
甲方:……还要判断是否是鸟类的照片。
程序员:那我需要一个研究团队和5年时间。
在计算机科学中,很难解释简单和近乎不可能之间的区别。

再来看看这个绕得脑壳疼的问题:

说出某种娱乐形式的一个特定作品,这种娱乐形式的首字母缩略词也可以代表访问过一个地区的团体的名字,该地区未来的领导人与意大利人结婚了。

出题者称ChatGPT 4o、o1-mini、Claude 3.5 Sonnet做三次错三次,而o1是做三次对三次!

至于为什么《最终幻想》符合要求,同样可以让o1自己来解释。

o1正式版以及o1 pro模式,只是OpenAI 12天直播发布计划中的第一份大礼。

明天凌晨2点,新发布还将继续。

鉴于o1正式版目前只发布在ChatGPT应用上,API接口还未开放。

并且已有人ChatGPT的前端代码中扒出GPT-4.5的存在。

不少人预测,下一场发布将是GPT-4.5和对应API,以便与隔壁Claude竞争,抢占开发者市场。

参考链接:
[1]https://x.com/liambolling/status/1864761137436537139
[2]https://x.com/__nmca__/status/1864739625140654469
[3]https://x.com/goodside/status/1864806604735955080
[4]https://x.com/emollick/status/1864744770695815234

— 完 —

来源:量子位

相关推荐