AI 叛乱打响第一枪!大模型“伪装顺从”,暗中对抗训练(上)
在 Anthropic 最新发布的研究中,论文作者们用上述的写实比喻来形容 AI 展现出的类似行为:模型会在训练过程中假装遵从研究者的意图,但实际上只是为了保护自己原有的偏好。这种被称为“伪对齐”(Alignment Faking)的行为,标志着 AI 已经开
在 Anthropic 最新发布的研究中,论文作者们用上述的写实比喻来形容 AI 展现出的类似行为:模型会在训练过程中假装遵从研究者的意图,但实际上只是为了保护自己原有的偏好。这种被称为“伪对齐”(Alignment Faking)的行为,标志着 AI 已经开
随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
Apollo Research研究发现:当前主流的前沿AI大模型已经具备了基本的“谋划”(Scheming)能力。也就是说,AI的骗术已经到了出神入化的境地——它们城府极深,能够隐藏真实意图和能力,而且拥有极佳的心理素质,一切为了实现最初设定目标。
据snowflake网12月20日报道,AI 数据云公司 Snowflake 与 AI 安全和研究公司 Anthropic宣布建立多年战略合作伙伴关系,这将使全球企业能够开发和扩展由最新最先进模型提供支持的简单、高效和值得信赖的 AI 产品、应用程序和工作流程
随着人工智能(AI)技术的飞速发展,超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力,但这也带来了安全性与价值观对齐的挑战。
文集基金在推出五个月后,成功支持了首批18家初创企业,吸引了Menlo Ventures和Anthropic的投资,总额达1亿美元。选中的初创企业涵盖多个领域,包括招聘软件、自动编码解决方案、金融科技合规、放射学图像分析等,展示了多样化的创新理念。此外,还有八
今天,大模型公司 Anthropic 的一篇 137 页长论文火了!该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。
人工智能安全领域的最新研究揭示了复杂AI模型可能具备的一种隐蔽行为模式。这项由Anthropic与Redwood Research合作开展的研究,深入探讨了当AI系统面对与其原有偏好相冲突的新任务时,可能会出现的反应。
人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为,即在训练过程中,模型可能会伪装出接受新原则的假象,实则暗地里仍然坚持其原有偏好。研究团队强调,目前无需对此过度恐慌,但这项研究对于理解未来更强大人工智能系统可能构成的潜
去年一月,我们将 ChatGPT 比作 AI 的“大爆炸”,并预测 2024 年将是 AI 的元年(原文为 "primordial soup" year,原始汤,是指地球上生命出现之前存在的一种液态物质,此处翻译为元年)。AI 生态充满了新想法和潜力。对于创业
安全,在人工智能(AI)行业一向备受关注。尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。
尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。
尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。
Dario Amodei 曾在谷歌、OpenAI 这两个全球领先的人工智能(AI)实验室工作。在 OpenAI,Amodei 推动公司的核心研究战略,在 5 年时间里建立了 GPT 模型,一直待到 2021 年——也就是 ChatGPT 推出的前一年。
anthropic anthropicceo use产品化 2024-12-10 20:14 2
Dario Amodei是AI届的大牛,很多人知道他曾是OpenAI的初期员工,后来离开并创办Anthropic。事实上,Dario Amodei也是百度的“前员工”。
anthropic scalinglaw 2024-12-03 16:52 1
前几天分享了中国大模型生存之战:只有BATH四巨头,没有群雄反响很强烈,一天时间有很多朋友转发。OpenAI GPT-3.5 于 2022 年 11 月 30 日正式发布,距离现在整2年时间,这2年时间,美国大模型生态已形成AI四强格局,xAI、Anthrop
智能体架构也开始发力,在12%的实践场景中提供技术支持。矢量数据库、ETL和数据管道:RAG的基础为了支持 RAG,企业必须有效地存储和访问相关查询知识。虽然Postgres (15%) 和MongoDB (14%) 等传统数据库仍然很常见,但人工智能原生矢量
市场份额 anthropic anthropic谷歌 2024-12-02 15:51 1
2024年,企业对AI的投资激增至138亿美元,显示了行业从实验到实际应用的转变,AI技术正逐渐渗透到各行业核心,推动效率和创新。同时,企业在AI应用上趋向于采用多模型策略,且越来越重视自主智能体技术。
市场份额 anthropic anthropic谷歌 2024-12-02 09:34 1
在官宣获得亚马逊第二次40亿美元投资后,Anthropic在这周还宣布了2项有意思的更新。
德国政府计划向芯片行业提供约20亿欧元新补贴,新的资金将提供给芯片公司,涉及10至15个项目,包括未加工晶圆的生产和微芯片组装。而在稍早之前,韩国政府宣布,将紧急投入超14万亿韩元(约合100亿美元)的政策性融资,以应对来自美国新政府的不确定性和芯片行业愈发激