摘要:“AI教母”、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。这一模型亮点在于:直接生成3D场景,且场景具有交互性、可编辑、可扩图。该AI工具有可预测3D场景能力,即利用AI技
李飞飞首个“空间智能”模型发布
“AI教母”、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。这一模型亮点在于:直接生成3D场景,且场景具有交互性、可编辑、可扩图。该AI工具有可预测3D场景能力,即利用AI技术对3D空间中的物体、环境结构及其动态变化进行预测和理解,让AI工具仅凭部分图片就能“扩图”,想象出整个3D场景。在World Labs的博客中,该团队展示了他们如何实现短视频上流行的“希区柯克式变焦”,模拟调节景深效果、产生虚化营造专业的摄影效果等。
点评:此前李飞飞表示,空间智能与语言智能一样重要,甚至在某些方面可能更古老、更基础。她还提到,AI的发展不会局限于处理平面图像或文本,而是会迈向对三维世界的理解,这是智能发展的自然延伸。据官方消息,World Labs已经完成超过2.3亿美元的融资,投资方包括硅谷风投a16z、NEA和Radical Ventures等。
谷歌DeepMind发布基础世界模型Genie 2
在李飞飞发布了其首个“空间智能”模型后,12月5日凌晨,谷歌DeepMind在官网发布了大型基础世界模型Genie 2,可通过单张图片和文字描述生成种类多样的可玩3D世界。作为今年初推出的 Genie 模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的又一次突破。
DeepMind透露,Genie 2具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,但多数情况下维持在10秒到20秒之间。
点评:谷歌对世界模型研究的投入正在持续扩大。今年 10 月,DeepMind 聘请了OpenAI前视频生成项目负责人Tim Brooks,同时两年前从Meta挖来了以开放式实验闻名的Tim Rocktäschel。
朱啸虎、杨植麟分别回应月之暗面仲裁案风波
金沙江创投联合多家循环智能投资机构向月之暗面创始人杨植麟、联合创始人兼CTO张宇韬提起仲裁后,12月5日,金沙江创投主管合伙人朱啸虎连发两条朋友圈,提到月之暗面本来是循环智能内部已开发2年的项目,分拆至今未得到循环智能股东决议的签字,金沙江创投前合伙人张予彤向基金合伙人、其他循环智能投资人/股东隐瞒自己在新拆分的公司有巨大的免费股份的事实,违反了基金合伙人对LP的受托责任。
12月6日晚,杨植麟发文回应称,循环董事会决议通过了月之暗面成立新公司的安排,月之暗面授予张予彤股份的本质是其作为公司联合创始人对公司后续多年持续工作的对价,跟循环及其股东对于自己离开循环重新创业的决策是独立的。
点评:此事的所有细节还未全部清晰,朱啸虎又表示杨植麟的回应回避了关键问题。此外,朱啸虎认为张予彤向基金合伙人等人隐瞒自己在月之暗面有大额免费股份,杨植麟的说法则是授予股份与循环及其股东对于自己重新创业的决策、部分股东没有投资月之暗面的决策是独立的,双方各执一词。矛盾凸显后,双方可能会寻找方法达成和解。
阿里对通义前员工周畅起诉索赔
原阿里通义千问技术负责人周畅近期被曝加入字节跳动,记者从知情人士处了解到,目前,阿里巴巴已起诉周畅违反竞业协议。公开资料显示,周畅于2017年7月入职阿里。今年7月,周畅以创业为由提出离职,并签署竞业协议。
点评:大模型“抢人”大战愈演愈烈。国内人工智能人才的稀缺和大厂对大模型的持续投入,让各家企业在人才竞争中的压力日渐加大。大厂间的大模型竞争尚未形成定局,技术比拼之外,大厂也在进入持续投入、组织快速迭代能力等深度比拼。
具身智能初创公司穹彻智能完成数亿元融资
12月5日,具身智能初创公司穹彻智能(Noematrix)宣布完成数亿元人民币Pre-A+轮融资,本轮融资由红杉中国领投,老股东Prosperity7 Ventures、小苗朗程及璞跃中国(Plug and Play China)持续加注。据悉,穹彻智能专注具身智能基础模型和系统的研发,提供覆盖智能机器人应用开发全周期的软硬件工具和平台。新一轮融资将主要用于加速穹彻的产品研发、人才招募、推动商业化和生态合作,进一步强化技术壁垒。
点评:在人工智能如火如荼的2024年,具身智能正成为科技圈最炙手可热的赛道。从天使轮迅速推进至Pre-A+轮,穹彻智能一年内已完成三轮融资。除了穹彻智能外,仅在上个月,就至少有星海图、自变量机器人、埃斯顿酷卓、银河通用、戴盟机器人5家人形机器人厂商完成亿元级融资。
12月2日消息,微信公众号近日正在测试全新的 AI 配图功能,在后台文章编辑选择插入图片时,除了原本从图片库选择和本地上传之外,多了一个新的选项——“AI配图”。点击这个选项,创作者会进入一个AI图像生成页面,只需要输入一段文字描述想要的配图,然后等上十几秒,系统就会生成四张照片。根据这四张照片,可以进一步选择图片风格和比例,然后对图片进一步生成修订,直到满意之后,将其插入到文章当中。目前该功能尚未全面上线。
点评:这项功能的加入,意味着以后微信公众号的配图都可以通过AI生成解决,创作者也不必再因为图片版权的风险而担忧了。微信公众号不是第一个更新这项功能的平台。2023年初,百家号在文心一言刚发布不久就上线了类似的功能。微信公众号更新的意义在于,作为行业最早、影响力最大,但更新最缓慢的平台,它的改变代表一个新阶段的开始。
腾讯混元开源130亿参数视频模型
12月3日,腾讯混元大模型上线了视频生成能力,并开源了这个参数量130亿的视频生成大模型HunYuan-Vieo。据称该模型是业界参数最大的开源视频模型,可生成5秒视频。据混元团队公布的文生视频模型效果评估,混元视频生成模型总体评分41.3%,高于未公开名称的国内模型A和B以及海外的GEN-3 alpha和Luma1.6。
点评:此前已有多家大模型厂商发布了视频大模型,不过腾讯现在入局也不能算太晚,因为视频大模型整体还未进入商业化阶段。腾讯混元多模态生成技术负责人凯撒也认为,文生视频还不处于很成熟的阶段,各模型成功率都不高,至少文生视频的技术程度在混元内部的评估中,还没有到大规模商业化的程度。技术上,视频大模型还要解决不符合物理规律、视频时长较短等各种问题。
MiniMax副总裁刘华:基础大模型赛道将只剩个位数的企业
接受第一财经等媒体采访时,MiniMax副总裁刘华表示,基础大模型赛道将会局限在个位数的企业,其中包括大厂和创业公司,除此之外,很多人要转去做AI应用。目前国内AI产业总体上没有太多泡沫,此前之所以行业存在一些资源浪费,是因为太多企业认为自己能做基础大模型。泡沫撇去,更好的情况将是大家认识到能做基础模型的企业不多,更多人有志于做大模型应用。
点评:近期一些业内人士发声都认为大模型创业公司未来至少能有一家留在牌桌上,目前的几家独角兽公司都有机会。与能在多个领域同时出击的科技大厂不同,资源相对较少的创业企业要找到自己的发力点,做好基础大模型的同时布局商业化,让商业化齿轮转动起来。
OpenAI首发o1正式版和200美元/月Pro会员
北京时间12月6日凌晨,OpenAI举行了“12天12场直播”活动的首秀,正式推出名为ChatGPT Pro的套餐,每月订阅收费200美元。OpenAI称,该套餐的订阅用户可以无限制访问OpenAI最智能的模型 OpenAI o1以及同系列较小模型o1-mini、GPT-4o、类人的ChatGPT高级语音模式Advanced Voice。ChatGPT Pro的套餐中还可以包括名为o1 pro mode的新o1版本,也是ChatGPT Pro独有的o1版本。OpenAI称,这个新版本使用更多的计算,能更深入地思考,并为最困难的问题提供更好的答案。
点评:OpenAI宣布将开启“12天12场直播”活动后,就有人预测o1正式版将在直播中亮相,因为o1预览版已经在今年9月推出了。此次直播活动中,最大的悬念还是视频大模型Sora是否会推出,不过,如此密集的产品更新活动可能还是以比较零散的新功能为主。一个月订阅收费200美元的ChatGPT Pro推出后,则有人称之为“世界最贵的大模型”。
OpenAI推出强化微调技术
北京时间12月7日,OpenAI推出强化微调技术(Reinforcement Fine-Tuning),帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。该项目通过全新的模型定制技术,让开发者可以使用高质量任务集对模型进行微调,并利用参考答案评估模型的响应,从而提升模型在特定领域任务中的推理能力和准确性。OpenAI CEO山姆·奥尔特曼(Sam Altman)表示,强化微调的效果非常棒,这是他今年最大的惊喜之一。
点评:强化微调可以降低大模型的错误率,据OpenAI研究员演示,强化微调后的o1 mini测试通过率比正式版o1高24%,比未强化微调的o1 mini提高了82%。在一些对准确率要求严格的领域,例如生物化学、安全、法律和医疗保健,强化微调将能让大模型有更好的表现。
来源:第一财经一点号