OpenAI的AI复现论文新基准,Claude拿了第一名
近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。
近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。
AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。
Chatgpt、claude等生成式人工智能平台的崛起,让更多人意识到了“AI的时代已经到来”,而国内deepseek模型中的“深度思考”模式却让全世界为之震撼。
人工智能(AI)分析平台aitools.xyz最新发布的报告称,DeepSeek成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。
2月26日,和鲸社区精心策划了一场直播活动,邀请到了开源模型 DeepClaude 的开发者 Erlich,聊聊他眼中的 DeepClaude 使用场景, 以及如何使用和部署,帮助大家更好的进行工作。
开源 sonnet deepclaude deepsseek 2025-03-31 16:44 7
科技媒体 testingcatalog 昨日(3 月 26 日)发布博文,报道称 AI 公司 Anthropic 正计划“扩容”Claude 3.7 Sonnet 模型,将其上下文窗口将从 20 万 token 跃升至 50 万 token。
2025年3月25日,谷歌正式推出新一代AI模型系列Gemini 2.5,其首发版本Gemini 2.5 Pro Experimental(以下简称Gemini 2.5 Pro)以“史上最智能模型”之姿掀起行业巨浪。作为谷歌DeepMind研发的“思考型模型”
深夜悄悄搞事情的不只 OpenAI,抢在 OpenAI 开直播之前,谷歌上线了最强大的推理模型 Gemini 2.5 Pro。
3月24日晚间,DeepSeek悄悄上线最新更新后的模型DeepSeek-V3-0324,参数为6850亿,较去年12月发布的DeepSeek-V3的6710亿参数有所增长。
不过由于DeepSeek自带的极高话题性,这次版本升级还是引发了大量讨论和测评,并且果然没有令人失望——很多专业人士都指出,V3-0324模型在编程能力上有了显著提升。
DeepSeek在北京时间24日深夜悄悄放了个大招,没有像美国的OpenAI等技术公司那样事先炒作,就默默推出一个新版本DeepSeek-V3-0324。从命名方式看是V3的小幅改进版,然而能力是掩盖不住的,这个新版本的各项指标都有大幅提升,而且对硬件的需要很
deepseek 紫牛 sonnet deepseek深夜 2025-03-25 21:22 4
685B 的DeepSeek-V3新版本,就在昨夜悄悄上线了。 参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱! 有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。
2025年3月25日凌晨,深度求索悄然推出DeepSeek V3的重要更新版本:DeepSeek V3-0324。
没有官方新闻稿,没有技术报告,甚至在Hugging Face上传的最初文件中,连README文档都是空的,看上去,这只是V3模型的一次版本升级。
这款 641GB 大小的模型在 Hugging Face 上亮相,只有一个空的 README 文件和模型权重,依旧是几乎未作任何宣传。DeepSeek-V3-0324 基于 4 位模式,在配备 mlx-lm 的 512GB M3 Ultra 上运行速度超过每秒
没有发布会,没有媒体宣传,3月24日晚间,DeepSeek就这样“悄悄地”将其最新版V3-0324模型上传至Hugging Face。
昨晚,国内著名大模型平台 DeepSeek 悄然开源了 V3 模型的最新版本 0324。与以往不同,此次 DeepSeek 极为低调,国内公众号与国外社交平台均未进行任何宣传,仅是默默将模型上传至 huggingface。
让智能体先通往AGI,已经成为共识。OpenAI连番推出昂贵的新功能,o1-Pro比普通版贵了10倍,比R1贵了上百倍。Grok则悄悄上线了DeeperSearch。让它们率先替代码农和研究员,似乎正在成为大模型兑现商业价值最现实的方向;其他行业可以踩在他们的
昨天我在微信技术沟通群里面和大家分享采用Claude3.7 Sonnet结合svg来绘制复杂架构图,由于询问的人比较多,所以我今天准备写一篇文章来完整进行说明。
阿里巴巴的 Qwen 团队近日发布了 QwQ-32B (Qwen with Questions),这是一款大型推理模型 (LRM),可与 DeepSeek-R1 和 OpenAI o1-mini 等领先模型的性能相匹配。