摘要:OpenAI正在内部测试Operator功能,将AI从被动助手转变为主动解决问题的超级智能体,预计1月30日首次展示;
生成式AI
一、 OpenAI博士级「Operator」内测,将在ChatGPT macOS中推出
1. OpenAI正在内部测试Operator功能,将AI从被动助手转变为主动解决问题的超级智能体,预计1月30日首次展示;
2. 智能体预期能独立完成软件开发、财务分析等复杂任务,具备博士级专业人士的精确度和创造力,但仍存在内容编造的风险;
3. Meta等科技巨头预测,到2025年AI将能胜任中层工程师工作,大量代码将由AI工程师编写,标志着AI从生产力工具转向人类工作替代者。
二、 o3被曝成绩「造假」?提前获取测试题,60多位数学泰斗集体被耍
1. OpenAI被曝资助FrontierMath并获得大部分数据访问权,但对60多位参与创建评测集的数学家隐瞒此事,引发学界质疑;
2. Epoch AI承认与OpenAI有口头协议不将数据用于训练,但保留了部分未见测试集,并称受合同限制无法披露资金来源;
3. o3在FrontierMath上准确率比o1提升12倍至25.2%,但研究人员发现其在其他评测中表现一般,泛化能力存疑。
三、 DeepSeek-R1 正式发布同步开源权重,对标 OpenAI o1 正式版
1. 完全开源DeepSeek-R1模型并允许商用,采用MIT协议,支持用户通过蒸馏技术训练其他模型;
2. 模型性能对标OpenAI o1正式版,在数学、代码、自然语言推理等任务表现优异;
3. API定价极具竞争力,输入tokens每百万1-4元,输出tokens每百万16元。
四、 豆包 APP 端到端实时语音通话功能正式上线,智商情商双在线
1. 豆包APP发布全新端到端实时语音功能,支持免费实时通话,在拟人度和中文对话能力上或超越GPT-4o;
2. 模型在情绪表达、共情能力和智商表现上取得平衡,具备角色扮演、唱歌等多样化功能;
3. 提供面向大众的高质量中文语音系统,是AI交互方式的重要突破,提升情感连接。
五、 Windsurf Wave 2强势上线:新 Cascade 能力+自动记忆双管齐下
1. 著名AI编程软件Windsurf Wave 2更新Cascade系统,新增Web Search功能,支持实时解析网页和内网资源访问;
2. 引入自动记忆系统,通过观察用户习惯自动学习并保存,取代手动设置cursorrules;
3. 优化工作流执行系统,加强与IDE和shell环境的集成,支持Problems Tab直接解决问题。
六、 国产AI编程软件Trae,限时免费集成Claude 3.5 Sonnet和GPT-4o
1. 字节发布AI编程软件,内置Claude 3.5和GPT-4o两大顶级模型,限时免费开放,支持全中文界面;
2. 提供Chat和Builder两种模式,可通过自然语言生成代码片段和完整项目,支持代码补全、优化和重构;
3. 支持在IDE内直接预览Web页面,提供便捷的上下文引用功能,可引用代码块、文件和文件夹。
七、 AI独角兽Character AI正式入局测试游戏应用,定位AI娱乐公司
1. Character AI正在测试游戏功能,发布了Speakeasy和War of Words两款游戏,付费和部分免费用户可体验;
2. 公司明确定位为AI娱乐平台,而非AI伴侣服务,通过游戏功能提升用户参与度,目前用户日均使用时长达98分钟;
3. 在经历高层变动后,公司增强了安全措施,包括为青少年添加AI角色标签提醒和使用时长超时通知。
八、 小红书AI翻译加急上线,网友评论区玩Prompt,背后大模型扒出
1. 小红书上线AI翻译功能,除支持多语言翻译外,还能理解网络热梗、颜文字、化学式和摩斯电码;
2. 支持Prompt指令操作,如要求输出emoji或特定语言翻译,功能稳定性待提高;
3. 网友通过测试发现该功能背后或同时使用了智谱清言和GPT-4模型,可能采用其它模型微调。
前沿科技
九、 独家专访灵巧手Dexmate创始人:软硬协同与数据飞轮破局灵巧手
1. Dexmate致力开发AI灵巧手,采用软硬件协同设计,强调功能性而非形态,目标是实现像人手一样灵活完成各类任务;
2. 团队提出数据飞轮策略,结合虚拟仿真和实际场景数据,通过指数级数据积累提升灵巧手的适应能力;
3. 产品设计追求即插即用,将运行资源集成于机器人本身,已在制造、仓储和餐饮等领域验证,预计数月后推出双臂双手移动机器人。
报告观点
十、 对话 Mirumi 创造者:CES2025上爆火的陪伴机器人是怎样炼成的?
1. Mirumi陪伴机器人采用简单设计哲学,仅配备距离和IMU传感器,通过模仿婴儿行为特征激发人类情感共鸣;
2. 该产品暂时避免使用AI和高级交互功能,专注于实现低门槛自发互动,可作为包包挂件随身携带;
3. 目标用户群为50-60岁人群而非年轻人,预计售价70美元,将通过日本和中国工厂生产,计划2025年中期众筹。
AI50节选
👇订阅下方合集,获取每日推送
来源:腾讯研究院