摘要:在AI 基准测试网站的最新评测(2025-03-26)中,升级后的 GPT-4o 取得 历史性突破,跃升至全球第二,甚至超越了 OpenAI 今年 2月发布的 GPT-4.5。与 2025-01-29 的测试相比,新版 GPT-4o 评分提高 30 分,并在多
来 源 | 综合机器之心等
GPT-4o 本次更新聚焦四大核心:
多指令解析优化:显著提升对包含多重需求的复杂指令理解能力。
技术问题处理增强:强化复杂技术及编程问题的解析与解决方案生成。
逻辑推理与创造力提升:增强创新性思维与跨领域知识融合能力。
交互界面精简:减少表情符号使用频率,优化专业场景对话体验。
在AI 基准测试网站的最新评测(2025-03-26)中,升级后的 GPT-4o 取得 历史性突破,跃升至全球第二,甚至超越了 OpenAI 今年 2月发布的 GPT-4.5。与 2025-01-29 的测试相比,新版 GPT-4o 评分提高 30 分,并在多个关键领域排名第一:数学能力:从第 14 名跃升至 全球第 1。复杂难题解决:从第7名上升至全球第 1。编码能力:从第5名提升至全球第1 。
其中,网友最感兴趣的是GPT-4o降低了人工智能图像生成技术的门槛,这功能确实很强大,文字融合零误差、多轮对话精修图、超强指令解析,这也给开发者和企业提供了新的工具和机会。
OpenAI 首席执行官萨姆·奥特曼(Sam Altman) 表示,此次更新带来的提升十分显著,并且很快将推出更多优化。目前,开发者已经可以通过 chatgpt-4o-latest API 访问新模型,OpenAI 还计划在未来几周内 将这些改进扩展至 API旧模型,让更多开发者受益。
其中GPT-4o的原生图像出道即顶流!与DALL-E 3不同,此次OpenAI的全新图像生成器基于其原生多模态GPT-4o模型,能够同时理解图像和文本,可以非常好地遵循提示词指令,轻松创作出虚实结合的场景,就像在现实中一样。
GPT-4o这次带来的不是魔法,它解决很多AI图片创作的长期痛点,比如:
1.原生多模态集成:GPT-4o将图像生成能力直接嵌入模型,不再依赖外部的DALL-E。模型可以无缝结合文本和图像上下文,生成更符合用户意图的内容。
2.更棒的文本渲染:GPT-4o能准确生成图像中的文字,支持复杂排版,如菜单、标志、信息图表等。这使其从单纯的艺术生成转向实用性工具,例如制作宣传海报或教育图解。(但是,现在中文还是会有细节问题)。
3.上下文感知与多轮优化:GPT-4o可以进行多轮对话来改图,且很好的遵循上下文。
4.多样化风格与高质量输出:从逼真的摄影效果到创意插画,GPT-4o展现了广泛的风格适应性,生成的图像细节丰富、光影真实,视觉效果令人惊叹。
新模型几乎可以可视化全部东西,甚至包括待办事项列表(To-Do List)。
给GPT-4o输入情绪板或视觉样图,就可以创建遵循相同风格的图像。
有审美的文字排版:从海报到梗图,不仅准确,字在哪里都听你指挥,还可以一次性显示完整漫画。
P 图全家桶:抠图、换脸、扩图样样行,还能结合不同图片中的元素生出一张新图来。
从一键风格迁移、秒出高保真线框,到精准呈现复杂信息图和完整漫画,GPT-4o在提示遵循、结果质量、排版、编辑能力、角色一致性等方面,都非常Nice。
随着大量用户在互联网上发布 ChatGPT 生成的图像,OpenAI 升级后的图像工具火爆程度远远超出了预期。
过去一天,全网已被各种GPT-4o生成的吉卜力风格AI图片淹没。这也导致GPT-4o 生成图像的速度越来越慢,很多用户已经在抱怨了,周四时生成一张图片的速度就长达半个小时。
今天凌晨,OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次,他没有具体说明次数限制是多少,但表示希望这项保障措施不需要实施很长时间,因为 OpenAI 正在尝试优化效率。
要知道,现在 GPT-4o 生图还是仅限于付费版用户的功能(Plus、Pro 和 Team 用户)。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会,但是照目前的情况来看距离兑现反而还越来越远了。
人们从 GPT-4o 生成的图像中发现:GPT-4o 的绘图能力源自 LLM 本身,并不是像以前那样简单地调用专门的生图模型(Dall-E)。
经过了最新的思维链流程,AI 充分结合了自身的知识,能够实现更好的反馈。
用 GPT-4o 生成的图片。图据网络
原生多模态的大模型是如此的强大,对此很多业内人士已经开始认为,当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。
OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。它还会充分调用模型内已有的知识库和对话上下文,并对人们上传的参考图片预先进行转化处理。
由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。
AI生图超进化,对于创意工作者、动画设计师来说,却是另一个巨大的冲击。自从奥特曼换了头像带起节奏,很多人在用 GPT-4o 生成吉卜力工作室画风的图像,有人做出了表情包开始卖,也有人推出滤镜 App。
不过据说有网友说,自己刚刚收到吉卜力工作室律师函。这位小哥推出了一款能将所有照片转换为吉卜力风格图像的应用,于是工作室以“未经授权使用吉卜力工作室知识产权”为由,要求小哥下架相关应用。
要知道,宫崎骏和团队为一部电影动画,付出惊人努力是难以想象的。
每部作品通常包含6万至7万帧画面,而这些画面全部由动画师一笔一画手绘完成,再用水彩精心上色。
没有电脑特效,没有流水线式的批量生产,每一帧都是独一无二的艺术品。一段4秒的镜头,便耗费了一位动画师15个月的时间。
AI生成的图片版权问题或许正在酝酿一场更大的风暴!
来源:九卦金融圈