摘要:9月5日晚,阿里巴巴通义千问首个参数量超1万亿的大模型Qwen3-Max-Preview上线。阿里称其为通义千问系列中最强大的语言模型,在中英文理解、复杂指令遵循、工具调用等方面能力显著增强,大幅减少知识幻觉。在知识推理、数学推理、竞争性编程、复杂问题解决和人
01 阿里首个超万亿参数模型上线
9月5日晚,阿里巴巴通义千问首个参数量超1万亿的大模型Qwen3-Max-Preview上线。阿里称其为通义千问系列中最强大的语言模型,在中英文理解、复杂指令遵循、工具调用等方面能力显著增强,大幅减少知识幻觉。在知识推理、数学推理、竞争性编程、复杂问题解决和人类偏好对齐、综合性能力评测中刷新阿里自研模型性能纪录。介绍显示,该模型支持超过100种语言,具有更强的翻译和常识推理能力,并针对检索增强生成等功能进行了优化,展现出强大的逻辑思维能力,将在处理复杂工作流、进行高质量开放式对话方面提供新体验。模型已上线阿里云百炼平台,可通过API调用。
02 美团发布首个开源大模型
9月1日,美团正式发布其首个开源大模型LongCat-Flash-Chat(中文名“龙猫”)。LongCat-Flash采用“零计算专家”架构,总参数量达560B,激活参数量为18.6B—31.3B,平均激活量约27B,实现算力按需分配和高效利用。该模型在训练全流程使用多智能体方法生成多样化高质量轨迹数据等,实现优异的智能体能力。美团曾表示,其AI战略会建立在三个层面:AI at work、AI in products以及Building LLM。媒体注意到,此次模型开源是其Building LLM进展的首度曝光,今年以来美团已发布AI编程智能体产品NoCode、AI经营决策助手“袋鼠参谋”APP等多款AI应用。
03 字节跳动为虚拟人装上“大脑”
近日,字节跳动数字人团队推出OmniHuman-1.5,提出一种全新的虚拟人生成框架。 OmniHuman-1.5首次将诺贝尔奖得主丹尼尔·卡尼曼的“双系统理论”引入AI,借助多模态大语言模型(MLLM)驱动的“思考大脑”,让虚拟人学会“深思熟虑”,实现从“动嘴”到“表达”的飞跃。OmniHuman-1.5将上线即梦AI,相比1.0版本,Omnihuaman-1.5不仅可以生成更加真实、灵动的虚拟人,也为人机交互、影视制作、虚拟社交等领域带来新的可能。
04 记忆能力将是大模型研发新方向
基于与AI从业者的交流,机器之心微信公众号9月7日推文提出,围绕“记忆”的研究将是接下来大模型的新方向,而谁能率先让大模型拥有像人类一样的“记忆”能力,谁就掌握了主动权。当前业界对于大模型“记忆”能力的研究主要有参数化记忆、上下文记忆(上下文工程)、外部数据库 / RAG等几种路线。业界人士认为,当前有关模型“记忆”的研究还处于早期阶段,各种路线的解题思路其实都是围绕如何用空间换时间,或者如何在有限的空间内提高模型整体的推理和应用效率。据推文预计,如果将模型“记忆”能力按照抽取、存储、更新、调度、应用、治理六个维度划分,现在距离大范围应用并给人类生活带来无处不在的变化,可能还需要一到两年的时间。而如果想要达到治理层面,也就是解决模型“记忆”本身的幻觉问题、隐私保障等问题,至少可能还要三到五年的时间。
05 OpenAI论文称找到AI幻觉的根源
日前,OpenAI发表论文称找到了大模型幻觉产生的根源。OpenAI将幻觉定义为“模型自信地生成不真实答案的情况”,也就是“语言模型生成的看似合理但却错误的陈述”。OpenAI提出,幻觉产生的原因是“标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励”。幻觉持续存在,部分原因是当前的评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉,但大多数评估模型性能的方式会鼓励模型进行猜测,而不是诚实地面对不确定性。即使模型变得更加先进,它们仍然会产生幻觉。对此,OpenAI提出了一个简单的解决办法:对自信错误(confidential error)的惩罚力度大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。OpenAI的模型规范表示,指出不确定性或要求澄清会更好,而不是自信地提供可能不正确的信息。
附录:
人民网、传播内容认知全国重点实验室智能产品
人民智媒大模型:面向党政服务、媒体服务的大模型应用基座。基本解决大模型政治方向、舆论导向、价值取向、事实幻觉等问题,在各种场景下提供值得信赖的文本生成和输出。能够协助党政机关、企事业等单位构建各类模型。
“写易”智能创作引擎:采用人民日报系主流价值语料,具备智能写作、智能审校、写作素材知识库调用等主要功能,着重面向公务人员、媒体从业者、国企管理者等用户。既能保留原有行文风格,又兼具个性化内容输出,有效提升写作效率、质量。
人民审校和内容风控大脑:围绕内容安全,提供“时政信息表述审校”“综合信息审校”两大核心服务。智能审校与人工审校协同,持续提供优质高效的内容风控解决方案。支持对文本、图片、音视频等多模态内容审校,既可在内容发布前辅助审校,也可在内容发布后开展网页、微博、微信等多平台批量内容巡查和风险筛查,能够满足党政机关、事业单位、央企国企多种宣发场景内容风险防控需求。
主流价值语料库:面向国产大模型训练,赋能大模型价值观对齐。已优选入库3000多万篇基础语料、30万对问答语料、500多万对图文语料,现有语料总规模达300TB,专门解决大模型普遍回答不了、回答不好的重大、敏感问题,已在一批主流大模型厂家得到应用验证,并入驻中国网络空间安全协会、国家互联网应急中心建设的中文互联网语料资源平台。
智能硬件“AI之眼”:人民网推出的“AI之眼”,是一个示范产品,更是一个创新创业平台。“AI之眼”1.0版本“AIyou(爱游)”,运用计算机视觉、语音识别和自然语言处理技术,采用头戴式或耳戴式轻便设计,集成麦克风、摄像头等传感器,面向户外活动和运动场景,可解放用户的双手和双眼,实现多模态交互、智能讲解授课、智能导航导览三大核心功能。下一步将联合地方政府,通过“智能大脑+硬件+开放场景”三轮驱动模式,采取技术协同共建、产业协同共建、应用生态共建和科技金融联动,打造人工智能创新创业赋能平台,助力地方建设人工智能未来产业。
“自在”心理疏导大模型(测试版):依托传播内容认知全国重点实验室开发,以“测评+咨询”为核心功能,深度融合人工智能技术与心理学专业知识,为家长、教师提供心理疏导、情绪管理、亲子交流、家校共育等服务。该模型作为教育部首批筛选的10款AI应用之一,已上线国家智慧教育平台2.0智能版供用户体验。下一步将构建校园端功能,支持家校心理数据统计与筛查分析,推动心理健康教育智能化,为心理健康教育注入科技温度。
民意通:聚焦网上群众工作和基层治理工作领域,为各级党政部门提供多来源数据汇总分析、群众留言一键办理、社情民意实时监测等服务。
人民数据确权“三证”:人民数据面向全国推出数据确权“三证”服务,在数据确权实践中实施108项数据确权实质性审查,为符合审查条件且经专家组审核通过的单位颁授“数据资源持有权证书”“数据加工使用权证书”“数据产品经营权证书”。相关信息同步在《人民日报海外版》公示。
来源:金台资讯