摘要:Gemini 2.5 Pro登顶LMeana,首次在文本、视觉、WebDev Arena三大基准测试中全面领先,编程性能超越Claude 3.7;
生成式AI
一、 谷歌Gemini 2.5 Pro(I/O版)AI编程屠榜,碾压Claude?
1. Gemini 2.5 Pro登顶LMeana,首次在文本、视觉、WebDev Arena三大基准测试中全面领先,编程性能超越Claude 3.7;
2. 新版本特别强化编程能力,可将图片、视频直接转化为交互式应用,VideoMME测试得分84.8%;
3. 开发者可通过Google AI Studio和Vertex AI使用更新版本,已在Gemini App正式上线,支持Canvas等功能。
二、
ComfyUI 可直接在工作流中调用主流图像和视频模型API1. ComfyUI新增原生API节点功能,支持10个以上模型系列和62个新节点,可直接调用Veo2、Flux Ultra等付费模型;
2. 完成品牌视觉更新,新Logo采用连接方块元素设计,融入90年代动漫与Y2K风格,配色方案全面升级;
3. 即将推出用户自定义API Key、工作流并行执行等功能,同时增强了视频处理能力。
三、 Devin开发商再次开源Kevin,强化学习生成CUDA内核
1. Cognition AI开源32B参数量的Kevin模型,基于QwQ-32B通过GRPO强化学习训练,在生成CUDA内核方面超越o3和o4-mini;
2. Kevin采用多轮训练方法,解决了上下文爆炸和奖励分配问题,在KernelBench数据集上平均正确率达65%,解决89%的任务;
3. 模型通过反馈优化内核代码,在测试中实现1.41倍加速比,尤其在二级任务上表现出色,达到1.74倍加速,显著优于其他模型。
四、 Cursor Pro和Gemini Pro相继向学生免费开放使用1年
1. Cursor Pro和Gemini Pro同时宣布面向学生群体免费开放一年完整专业版使用权限,可省约2000元人民币;
2. 这是一场争夺未来用户的战略布局,通过提前培养学生用户习惯来争取未来市场份额;
3. 申请渠道已开放,Gemini Pro将在2025年8月重新验证学生身份,学生可通过官方链接申请完整版本权限。
五、 元宝「对话分组」上线 !让你的每组对话更聚焦、更好用
1. 腾讯元宝推出对话分组功能,支持按主题创建不同文件夹,并支持历史对话归类整理;
2. 每个分组可设置独立的提示词指令,定制专属语气、风格和任务目标,确保对话风格连贯统一;
3. 该功能已在全平台上线,免费且不限次数,可让大模型在不同场景扮演写作、职场、学习等多个专属角色。
六、 在元宝,DeepSeek也能生图了!腾讯元宝文生图功能升级
1. 腾讯元宝全端升级文生图功能,同时支持混元和DeepSeek两个大模型生成图片,增强了图文一致性和画质;
2. 该功能可将用户简单的口语化描述自动扩写为完整的提示词,支持多种风格和画幅比例;
3. 目前已上线,用户无需掌握专业提示词知识,只需一句简单描述即可生成所需图像。
前沿科技
七、 Claude加速科学发现?Anthropic推出AI for Science计划
1. Anthropic启动AI for Science计划,将向入选研究人员提供最高2万美元的API积分,用于加速科学研究和发现;
2. 该计划开放所有Claude系列模型,重点支持生物系统、遗传数据、药物研发、农业生产力等研究应用;
3. 尽管AI在科研领域存在"幻觉"等问题,但Anthropic等公司仍积极推动AI在科学研究中的应用,以期实现突破性进展。
八、 机器人界的Sora?清华、星动纪元开源首个机器人大模型
1. 清华ISRLab与星动纪元联合开发AIGC机器人大模型VPP获ICML2025 Spotlight,被誉为机器人界"Sora",已全部开源;
2. VPP基于视频扩散模型训练,可提前预知未来场景并高频执行,在Calvin ABC-D基准测试中实现4.33平均任务完成长度,超越先前技术41.5%;
3. 该模型支持跨本体学习,可直接学习人类动作数据,在真实场景中可完成100+种灵巧操作任务,具有较强的可解释性和调试优化能力。
报告观点
九、 人类文明终结?科学家发文警告:AI正让我们变得「无关紧要」
1. 多伦多大学教授David Duvenaud在《卫报》发文警告,AI正在经济、文化和社交领域逐步取代人类,使人类变得"无关紧要";
2. 随着AI变得更便宜可靠,将在工作、决策、创作等领域超越人类,不仅因为成本低,还因为表现更出色,可能导致人类失去对文明的控制;
3. 专家建议采取四项措施应对:跟踪AI影响、监管AI实验室、利用AI加强人类组织能力、学习掌控文明发展,人类应作为AI的受益者和管理者而非竞争者。
十、 Bolt.new CEO:我们正处在软件构建方式将被完全重构的零点
1. Bolt.new从年收入70万美元快速增长至两个月内达到2000万美元ARR,通过7年技术积累实现突破,主打基于浏览器的快速Web应用开发;
2. 该产品60-70%的用户不是开发者,而是产品经理、设计师和创业者,利用Web containers技术实现100毫秒内启动开发环境,显著提升用户体验;
3. 在15人小团队规模下,Bolt聚焦于核心产品体验,通过免费试用和零门槛体验实现病毒式增长,未来计划通过Bolt Builders项目为用户提供更多支持服务。
来源:腾讯研究院