大模型日报 2024-12-10

摘要:这篇文章详细报道了OpenAI新推出的Sora系统的功能和特点,强调其在视频生成领域的创新性。Sora能够生成多种分辨率和时长的视频,并具备文本到视频、图像到视频等多种功能。文章提到Sora的重混、重新剪辑、故事板等功能,使得用户可以轻松创作视频内容。研究者表

标题:Sora火爆上线系统秒瘫,奥特曼直播第三更网友震翻!20秒1080p拍大片再近AGI

摘要:这篇文章详细报道了OpenAI新推出的Sora系统的功能和特点,强调其在视频生成领域的创新性。Sora能够生成多种分辨率和时长的视频,并具备文本到视频、图像到视频等多种功能。文章提到Sora的重混、重新剪辑、故事板等功能,使得用户可以轻松创作视频内容。研究者表示,Sora在机器学习和人机交互方面取得了突破,尤其是在视频生成中的主体一致性问题上。Sora的推出被视为AGI路线图上的重要里程碑,标志着视频生成技术的重大进步,吸引了广泛关注和讨论。

标题:刚刚,OpenAI Sora正式炸裂登场,网页挤爆了!

摘要:OpenAI于2024年12月正式发布了视频生成模型Sora,标志着AI领域的一次重大创新。Sora能够根据文本、图像和视频输入生成高达1080p分辨率、最长20秒的视频,用户可通过全新的界面和故事板工具进行创作。Sora的发布被视为视频生成技术的重大突破,尤其是其新版本Sora Turbo,显著提升了生成速度。该模型基于DALL・E和GPT架构,采用扩散模型技术,旨在为用户提供丰富的创意表达工具。Sora的发布引发了广泛关注,许多用户期待体验其强大的功能,认为其将改变视频创作的方式。

标题:小雨智造:小米系首家工业具身大模型公司崛起,国家队助力产业化落地

摘要:小雨智造是一家专注于工业具身大模型的机器人公司,近期完成亿元A轮融资,推动智能制造业的升级。公司由小米核心团队创立,致力于研发高精度、高鲁棒性和高泛化性的机器人大模型解决方案,包括智能感知与决策引擎、高精度运控技术和动态实时闭环控制等。小雨智造与松下等企业展开战略合作,推动智能焊接机器人市场的发展。此次融资将加速北京市在具身智能领域的布局,未来十年将持续深耕制造业,推动中国制造业的智能化升级,展现出强大的市场潜力和技术创新能力。

标题:OpenAI发布季第三天:Sora正式发布!独立产品、完整视频工作流

摘要:OpenAI于2024年12月正式发布了Sora,这是一款创新的视频生成工具,经过近10个月的迭代,旨在帮助创作者更好地表达自己的故事。Sora不仅具备文生视频和图生视频的基本功能,还引入了故事板、视频特效等高级功能,允许用户通过分镜设计和素材剪辑来创作视频。用户可以生成高质量的视频,支持多种分辨率和时长,且无需额外付费。Sam Altman强调,Sora的推出不仅是为了工具性和用户交互的提升,也是OpenAI实现AGI目标的重要一步,旨在通过技术推动人类创造力的边界。

标题:Grok祭出首款生图模型Aurora!两位95后华人立大功,耗时6月自研MoE

摘要:本文报道了马斯克旗下的xAI公司发布了首款自研图像生成模型Aurora,该模型采用了MoE架构,经过6个月的研发,旨在提升Grok的图像生成能力。Aurora在生成逼真图像方面表现出色,能够处理复杂的文本指令,并支持多模态输入,极大拓展了AI交互的边界。文章详细介绍了Aurora的技术背景、研发团队及其在图像生成和编辑方面的强大功能,预计将在 平台全面上线。该模型的推出标志着AI图像生成技术的重大进步,受到广泛关注和测试。

标题:谷歌Willow量子芯片逆天出世!5分钟颠覆10亿亿亿计算极限,马斯克奥特曼惊叹

摘要:谷歌最新推出的量子芯片Willow在量子计算领域取得了重大突破,能够在不到5分钟内完成当前最强超算需要10^25年才能完成的计算任务。这一成就标志着量子纠错问题的解决,Willow芯片具备105个量子比特,误差率显著降低,开启了量子计算的新纪元。谷歌量子团队在此项研究中展示了量子比特的协同工作能力,成功实现了量子计算的低阈值,预示着未来在药物发现、核聚变等领域的广泛应用潜力。该研究已发表在Nature期刊,显示出谷歌在量子计算技术上的领先地位。

标题:1600万视频解锁「空间智能」?智源3D生成模型See3D全套开源

摘要:本文介绍了智源研究院推出的See3D模型,该模型通过学习1600万个无标注视频,能够生成高质量的3D场景。See3D采用全新的视觉条件技术,突破了传统3D生成模型对相机参数的依赖,展现出在多种3D创作应用中的广泛适用性。该模型支持从文本、单视图和稀疏视图生成3D图像,并且无需微调即可执行3D编辑和表面重建等任务。See3D的推出标志着在空间智能领域的重要进展,尤其是在数据扩展性和生成能力方面,具有显著的创新性和实用性。

标题:速度提升1000倍,效果还全面碾压!JHU等提出首个可渲染HDR场景的3DGS

摘要:该文章介绍了由约翰霍普金斯大学等机构提出的HDR-GS模型,这是首个能够渲染高动态范围(HDR)自然光的3DGaussian Splatting模型。HDR-GS在速度上比现有最佳算法HDR-NeRF快1000倍,同时在图像质量上也有显著提升。文章详细阐述了HDR-GS的工作原理,包括双动态范围高斯点云模型和光栅化处理管线的设计,强调了其在新视角合成(NVS)中的应用潜力。研究表明,HDR-GS在训练时间和渲染速度上均表现优异,适用于自动驾驶、图像编辑等多个领域,具有重要的学术和实用价值。

标题:73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

摘要:本文报道了Allen Institute for AI(AI2)发布的Tülu 3系列开源语言模型,强调其在后训练技术方面的创新。Tülu 3模型的性能与闭源模型如GPT-4o-mini相媲美,包含了数据、代码、训练配方和评估框架,旨在推动开源模型的发展。文章详细介绍了后训练的复杂性及其对模型能力的影响,提出了多轮训练和数据混合等方法以提升模型性能。研究者通过监督微调和偏好调整等技术,优化了模型在知识召回、推理和安全性等核心技能上的表现。Tülu 3的发布标志着开源模型在性能上逐步缩小与闭源模型的差距,具有重要的行业意义。

标题:AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究

摘要:这篇文章介绍了Adobe与麻省理工学院的最新研究成果,展示了一种自回归实时视频生成技术。该技术的创新之处在于能够实现边生成边播放视频,首帧延迟仅为1.3秒,生成速度达到每秒9.4帧。这一进展在AI视频生成领域具有重要意义,可能会推动视频制作和实时内容生成的应用,提升用户体验。文章详细阐述了技术的原理及其潜在应用场景,展现了AI在视频处理领域的前沿发展。

本文由 mdnice 多平台发布

来源:梦幻搭配师

相关推荐