摘要:OpenAI 的 GPT-4 已不再望尘莫及;图像、视频生成模型的作品愈发逼真;多模态大语言模型、推理模型、智能体(agent)取得突破性进展;人类与 AI 的关心也愈发紧密了......
专家普遍认为,2024 年是“AGI 元年。这一年,大模型行业发生了翻天覆地的变化:
OpenAI 的 GPT-4 已不再望尘莫及;图像、视频生成模型的作品愈发逼真;多模态大语言模型、推理模型、智能体(agent)取得突破性进展;人类与 AI 的关心也愈发紧密了......
那么,对于一个资深业内人士而言,大模型行业在这一年中又发生了什么变化呢?
日前,知名独立程序员、社交会议目录 Lanyrd 联合创始人、Django Web 框架联合创建者 Simon Willison 在题为 Things we learned about LLMs in 2024 的文章中详细回顾了2024 年大模型行业的变化、惊喜与不足。
部分观点如下:
在 2023 年,训练一个 GPT-4 级的模型是一件大事。然而,在 2024 年,这甚至不是一个特别值得一提的成就。
在过去一年中,我们取得了令人难以置信的训练和推理性能提升。
推动价格下降的因素有两个:竞争加剧和效率提高。
那些抱怨 LLM 进展缓慢的人,往往忽略了多模态模型的巨大进步。
prompt 驱动的 app 生成,已经成为一种商品。
免费使用 SOTA 模型的日子一去不复返了。
智能体,仍未真正诞生。
为 LLM 驱动的系统编写优秀的自动评估,是在这些模型之上构建有用 app 最需要的技能。
o1 引领扩展模型新方法:通过在推理上花费更多计算量来解决更难问题。
美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。
在过去几年里,运行 prompt 的能耗和对环境的影响都大大降低了。
人工智能生成的未经请求和未经审查的内容,即为“泔水”。
最大限度利用 LLM 的关键在于,学会如何使用不可靠但强大的技术。
LLM 有真正的价值,但实现这种价值并不直观,需要指导。
学术头条在不改变原文大意的情况下,对整体内容做了精编,如下:
2024 年,大语言模型(LLM)领域发生了很多事情。以下是我们在过去 12 个月中对这一领域所发现的事情的回顾,以及我对关键主题和关键时刻的识别尝试。包括 19 个方面:
我在 2023 年 12 月的回顾中写道:“我们还不知道如何构建 GPT-4——当时,GPT-4 已经问世近一年了,但其他人工智能实验室还没有做出更好的模型。OpenAI 知道些什么,而我们其他人却不知道?
让我感到欣慰的是,在过去的 12 个月里,这种情况已经完全改变了。现在,Chatbot Arena Leaderboard 上已经有来自 18 个组织的模型排名高于 2023 年 3 月发布的原始版本 GPT-4(GPT-4-0314),这一数量达到了 70 个。
最早的挑战者是谷歌于 2024 年 2 月发布的 Gemini 1.5 Pro。除了提供 GPT-4 级别的输出外,它还为这一领域带来了几项全新功能,其中最引人注目的是 100 万(后来是 200 万)token 输入上下文长度,以及输入视频的能力。
Gemini 1.5 Pro 引发了 2024 年的关键主题之一:增加上下文长度。2023 年,大多数模型只可以接受 4096 或 8192 个 token,但 Claude 2.1 是个例外,它可接受 20 万个 token。如今,每个模型提供商都有一个接受 10 万以上 token 的模型,谷歌的 Gemini 系列可以接受多达 200 万的 token。
更长的输入,大大增加了使用 LLM 解决问题的范围:你现在可以输入一整本书并就其内容提问,但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。对我来说,涉及长输入的 LLM 用例要比纯粹依赖模型权重信息的简短提示词(prompt)有趣得多。我的许多工具都是采用这种模式构建的。
继续说一说「击败」GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月份推出,Claude 3 Opus 很快成为我最喜欢的模型。6 月份,他们又推出了 Claude 3.5 Sonnet——六个月后,它仍然是我的最爱。
当然,还有其他的。如果你今天浏览一下 Chatbot Arena Leaderboard,你就会发现,GPT-4-0314 已经跌至第 70 位左右。模型得分较高的 18 家机构是:谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、零一万物、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱、xAI、AI21 Labs、普林斯顿大学和腾讯。
在 2023 年,训练一个 GPT-4 级的模型是一件大事。然而,在 2024 年,这甚至不是一个特别值得一提的成就,不过每当有新的组织加入这个名单时,我个人还是会庆祝一番。
我的个人笔记本电脑是 2023 年的 64GB M2 MacBook Pro。它是一台功能强大的机器,但也已经用了近两年了——更重要的是,自从 2023 年 3 月我第一次在自己的电脑上运行 LLM 以来,我一直用的就是这台笔记本电脑。
2023 年 3 月,这台笔记本电脑还只能运行一个 GPT-3 级模型,现在已经能运行多个 GPT-4 级模型了!
这仍然令我感到惊讶。我以为,要实现 GPT-4 的功能和输出质量,需要一台或多台价值 4 万多美元 GPU 的数据中心级服务器。
这些模型占用了我 64GB 的内存,所以我并不经常运行它们——它们没有给其他东西留下太多空间。
它们能够运行,证明了我们在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,我们收获了很多看得见的果实。我希望未来还会有更多。
Meta 的 Llama 3.2 系列模型值得特别一提。它们可能不是 GPT-4 级,但在 1B 和 3B 大小上,它们展现出了超乎预期的效果。
在过去的十二个月里,LLM 的使用成本急剧下降。
2023 年 12 月,OpenAI 对 GPT-4 收取 30 美元/百万输入 token(mTok)的费用,对当时新推出的 GPT-4 Turbo 收取 10 美元/mTok 的费用,对 GPT-3.5 Turbo 收取 1 美元/mTok 的费用。
如今,30 美元/mTok 就能买到 OpenAI 最贵的 o1 模型。GPT-4o 的价格为 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 的价格为 0.15 美元/mTok——比 GPT-3.5 便宜近 7 倍,而且功能更强。
其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku 的价格为 0.25 美元/mTok。谷歌的 Gemini 1.5 Flash 为 0.075 美元/mTok,Gemini 1.5 Flash 8B 为 0.0375 美元/mTok,比 2023 年时的 GPT-3.5 Turbo 便宜 27 倍。
推动价格下降的因素有两个:竞争加剧和效率提高。对于所有关注 LLM 对环境影响的人来说,提高效率非常重要。这些价格下降与运行 prompt 所消耗的能源直接相关。
关于人工智能数据中心建设对环境的影响,仍有很多问题需要担心,但对单个 prompt 的能源成本的担忧已不再可信。
我们做一个有趣的计算:如果使用谷歌最便宜的 Gemini 1.5 Flash 8B,为我个人照片库中的 68000 张照片逐一生成简短描述,需要多少钱?
每张照片需要 260 个输入 token 和大约 100 个输出 token。
260 * 68000 = 17680000 输入 token
17680000 * 0.0375 美元/million = 0.66 美元
100 * 68000 = 6800,000 输出 token
6800000 * 0.15 美元/million = 1.02 美元
处理 68000 张图片的总成本为 1.68 美元。这简直太便宜了,我甚至计算了三次,以确认我的计算是否正确。
这些描述究竟有多好?我从这条命令中得到了信息:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
这是一张加州科学院的蝴蝶照片:
图片中有一个红色的浅盘,可能是蜂鸟或蝴蝶喂食器。盘子里有一片片橙色的水果片。
喂食器里有两只蝴蝶,一只是深棕色/黑色的蝴蝶,身上有白色/奶油色的斑纹。另一只是体型较大的棕色蝴蝶,身上有浅棕色、米色和黑色斑纹,包括突出的眼斑。这只较大的棕色蝴蝶似乎正在吃盘子里的水果。
260 个输入 token,92 个输出 token,成本约为 0.0024 美分(不到 1 美分的 400 分之一)。
效率提高和价格降低,是我最喜欢的 2024 年发展趋势。我希望以极低的能源成本获得 LLM 的效用,而这正是我们正在实现的目标。
我上面举的蝴蝶例子,也说明了 2024 年的另一个关键趋势:多模态大语言模型(MLLM)的兴起。
一年前,在 2023 年 11 月 OpenAI 的 DevDay 上发布的 GPT-4 Vision 是其中最引人注目的例子。谷歌则在 2023 年 12 月 7 日发布了多模态 Gemini 1.0。
2024 年,几乎所有模型提供商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列,在 4 月看到了 Gemini 1.5 Pro(图像、音频和视频),在 9 月又看到了 Mistral 的 Pixtral 12B,以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。我们在 10 月份从 OpenAI 获得了音频输入和输出,在 11 月份从 Hugging Face 获得了 SmolVLM,在 12 月份从 Amazon Nova 获得了图像和视频模型。
我认为,那些抱怨 LLM 进展缓慢的人,往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行 prompt 是应用这些模型的一种令人着迷的新方法。
特别值得一提的是,音频和实时视频模型开始出现。
与 ChatGPT 对话的功能于 2023 年 9 月首次出现,但这主要是一种假象:OpenAI 使用其出色的 Whisper 语音转文本模型和一个新的文本转语音模型(命名为 TTS-1)来实现与 ChatGPT 的对话,但实际模型只能看到文本。
OpenAI 于 5 月 13 日发布的 GPT-4o 包括一个全新语音模型的演示,真正的多模态 GPT-4o(“o”代表“omni”)模型可以接受音频输入,并输出令人难以置信的逼真语音,而无需单独的 TTS 或 STT 模型。
当 ChatGPT 高级语音模式终于推出时,其效果非常惊人。我经常在带狗散步时使用这种模式,音调已经得到了很大的改善,这真是令人惊叹。在使用 OpenAI 音频 API 的过程中,我还体验到了很多乐趣。
OpenAI 并不是唯一拥有多模态音频模型的团队。谷歌的 Gemini 也接受音频输入,也可以用类似 ChatGPT 的方式说话。亚马逊也提前宣布了 Amazon Nova 的语音模式,但该模式将于 2025 年第一季度推出。
谷歌的 NotebookLM 于 9 月份发布,它将音频输出提升到了一个新的水平,两个“播客主持人”可以就你输入的任何内容进行逼真对话,后来也添加了自定义指令。
最近的新变化也是从 12 月开始的,那就是实时视频。ChatGPT 语音模式现在提供了与模型分享相机画面的选项,并可实时谈论你所看到的内容。谷歌的 Gemini 也推出了具有相同功能的预览版。
GPT-4 在 2023 年就已经可以实现这一点,但它的价值在 2024 年才显现出来。
众所周知,LLM 在编写代码方面有着惊人的天赋。如果你可以正确地写出 prompt,它们就能使用 HTML、CSS 和 JavaScript 为你构建一个完整的交互式 app——通常只需要一次 prompt。
Anthropic 在发布 Claude Artifacts 时将这一理念推向了高潮,这是一个开创性的新功能。有了 Artifacts,Claude 可以为你编写一个按需交互式 app,然后让你直接在 Claude 界面中使用它。
来源:人工智能学家