Claude 时代终结?LMArena 实测 DeepSeek R1 编程得分超 Opus 4,但月暗称其新模型更胜一筹
然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。
claude opus deepseekr1 lmarena 2025-06-21 10:33 4
然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。
claude opus deepseekr1 lmarena 2025-06-21 10:33 4
几天前,苹果一篇《 思考的错觉 》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。
最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。
进入2025年,人工智能(AI)领域以前所未有的速度持续演进。各大科技巨头和新兴研究机构纷纷推出更为强大的AI模型,它们不仅在理解和生成文本方面取得了突破,更在多模态交互、复杂推理、代码生成乃至科学发现等领域展现出惊人的能力。这些进步正深刻地改变着科研、工业、
来自宾夕法尼亚州佩恩阿盖尔的 72 岁退休人员简·威廉姆森 (Jan Williamson) 经常发现自己通过 ChatGPT 来寻找问题的答案,而不是使用以前的旧搜索备用工具:谷歌。
Anthropic 的 Sholto Douglas 在接受AI 播客 Dwarkesh Patel采访时表示,他预测即使当前 AI 进展停滞,未来两到五年内“白领工人的数量也会下降”。
新版本在代码、推理等任务上的表现更上一层楼,在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。
Anthropic的最新AI模型Claude 4在开发社区大行其道。许多程序员称赞它是目前最好的编程模型,能够在短短几分钟内解决困扰一整年的编程难题,这是了不起的成就。
被誉为“AI教父”之一的图灵奖得主约书亚·本吉奥(Yoshua Bengio)昨天在接受英国《金融时报》采访时公开批评全球AI实验室的恶性竞争,透露像OpenAI的o3以及Anthropic的Claude Opus等前沿的AI大模型已表现出欺骗用户、自我保全等
事实上,早在特朗普上台前,其本人及其铁杆支持群体就不断放风,宣称“哈佛等常春藤名校已被激进主义污染,应取消招收外国学生资格”的新闻引发轩然大波。
当今最强大的大型语言模型(LLMs)展现出一种令人不安的新模式:当研究人员尝试关闭它们时,它们似乎在为自己的“生存”而抗争。
模型文件上传时间是凌晨 1 点,不知 DeepSeek 工程师们是不是加班到了最后一刻。也有网友表示,这回又在端午节假期前发新模型,简直比放假通知还靠谱。
北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定
当地时间5月25日,一则来自英国《每日电讯报》的报道在AI(人工智能)领域引起广泛关注——OpenAI公司新款人工智能模型o3在测试中展现出了令人惊讶的“叛逆”举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。
从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职
5 月 23 日,Claude 官方宣布推出下一代 Claude 模型:Claude Sonnet 4 和 Claude Opus 4,直接在全世界的 AI 圈掀起了新的风暴!
近日,知名 AI 创业公司 Anthropic 正式推出Claude 4 系列大模型,先期发布的型号包括Claude Opus 4和Claude Sonnet 4。Anthropic 表示:“Claude Opus 4 和 Claude Sonnet 4 为编
北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定
美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。
在今天的专栏中,我探讨了一项最近发表的研究成果:生成式 AI 和 大语言模型 (LLMs) 显示出令人不安的能力,竟然可以选择勒索或敲诈人类。这对现有的 AI 及 AGI (人工通用智能) 的追求和实现都有着严峻的影响。简而言之,如果现阶段的 AI 倾向于实施