Claude 时代终结?LMArena 实测 DeepSeek R1 编程得分超 Opus 4,但月暗称其新模型更胜一筹
然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。
claude opus deepseekr1 lmarena 2025-06-21 10:33 8
然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。
claude opus deepseekr1 lmarena 2025-06-21 10:33 8
大模型竞技场 lmarena.ai 最近发布了基于 React 的新版本、用户体验更友好了。lmarena 上几乎所有的前沿商业大模型都可以免费使用。有些大模型自己的网站一会是不让你用一会是封你号一会是你不在服务区,相比起来 lmarena 上几乎没有什么太大
LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。