摘要:Simon Willison是Datasette的创建者,Datasette是一种用于探索和发布数据的开源工具。目前全职工作,围绕Datasette和SQLite构建数据新闻开源工具。
-Things we learned about LLMs in 2024
A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments.
This is a sequel tomy review of 2023.
Simon Willison,2024年12 月31 日。
关于Simon Willison :这是我最近的个人简介:
Simon Willison是Datasette的创建者,Datasette是一种用于探索和发布数据的开源工具。目前全职工作,围绕Datasette和SQLite构建数据新闻开源工具。
在成为独立开源开发人员之前,Simon是Eventbrite的工程总监。Simon在Eventbrite加入Eventbrite之前,他们收购了Lanyrd,这是他于2010年共同创立的Y Combinator资助公司。
他是Django Web框架的共同创建者,自2002年以来一直在simonwillison.net撰写有关Web开发和编程的博客
2024年,大型语言模型的世界发生了很多事情。以下是我们在过去一年中关于这个领域的一些发现,以及我对关键主题和关键时刻的尝试识别。
这是对2023年的评论的续篇。
目录
1GPT-4的屏障已被全面突破
2一些 GPT-4模型在我的笔记本电脑上运行
3LLM的价格崩跌,归因于竞争和效率提高
4对加利福尼亚科学院蝴蝶照片的反驳
5多模态视觉很常见,音频和视频开始出现
6声音和实时相机模式是科幻变为现实的产物
7新兴的音频和直播视频模式值得特别一提
8最佳模型的普遍访问只持续了几个短暂的月份
9"AGENTS"还没有真正出现
10EVALS真的很重要
11苹果的智能技术不好,苹果的MLX库非常出色
12推理扩展“推理”模型的崛起#
13中国目前最好的LLM模型是否少于600万美元?
14环境影响变得更好
15环境影响变得更加严重
16泥浆之年
17合成训练数据效果很好
18LLMS在某种程度上变得更难使用了
19知识的分布极为不均衡
20LLMS需要更好的批评
212024年,在我的博客中标记为“LLMS”的所有内容。
在我的2023年12 月的评论中,我写到我们尚不知道如何构建GPT-4—OpenAI的最佳模型几乎已经一年了,但没有其他人工智能实验室生产出比它更好的东西。OpenAI知道什么其他人不知道呢?
我很欣慰地看到在过去的十二个月里这种情况已经完全改变了。现在有18 个组织的模型进入了Chatbot Arena排行榜,其排名高于2023年3 月原始的GPT-4(榜上的GPT-4-0314)-总共有70 个模型。
谷歌的Gemini 1.5 Pro是最早的其中之一,于二月发布。除了产生类似GPT-4水平的输出之外,它还引入了该领域的几项全新功能,最明显的是其100万(后来增加至200万)令牌输入上下文长度,以及输入视频的能力。
Gemini Pro 1.5的杀手级应用是视频,这篇文章让我在五月份的Google I/O开幕演讲中露面。
Gemini 1.5 Pro还展示了2024年的一个关键主题:上下文长度的增加。去年,大多数模型接受4,096或8,192个标记,其中值得注意的例外是Claude 2.1,它接受200,000个标记。如今,每个严肃的供应商都有一个拥有100,000个以上标记的模型,而Google的Gemini系列能够接受高达2,000,000个标记。
长输入大大增加了使用LLM解决问题的范围:你现在可以输入整本书并询问其内容,但更重要的是,你可以输入大量示例代码,帮助模型正确解决编程问题。对我来说,涉及长输入的LLM用例比仅依赖模型权重中已有信息的简短提示更加有趣。许多我的工具都是按照这种模式构建的。
回到击败GPT-4的模型:Anthropic的Claude 3系列于三月推出,Claude 3 Opus很快成为我的新宠日常驱动器。在六月,他们更进一步推出了Claude 3.5 Sonnet——这款模型仍然是我六个月后的最爱(尽管在10 月22 日得到了重大升级,令人困惑地保留了相同的3.5版本号。Anthropic的粉丝们从那时起开始称其为Claude 3.6)。
然后还有其他情况。如果你今天浏览Chatbot Arena榜单——仍然是获取基于情感评估模型最有用的单一地点——你会发现GPT-4-0314已经跌至第70 名左右。得分更高的18 家组织是Google、OpenAI、Alibaba、Anthropic、Meta、Reka AI、01 AI、Amazon、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton和Tencent。
在2023年,训练一个超越GPT-4的模型是一件了不起的事情。在2024年,这个成就甚至已经不值一提了,尽管我个人仍然会为新的组织加入这个行列而庆祝。
我的个人笔记本电脑是一台来自2023年的64GB M2 MacBook Pro。它是一台功能强大的机器,但现在已经快两年了,重要的是,这台电脑从2023年3 月我第一次在电脑上运行LLM以来一直使用的就是这台电脑(参见《大型语言模型正在经历他们的稳定扩散时刻》)。
那台去年三月几乎可以运行GPT-3级别模型的笔记本电脑,现在已经可以运行多个GPT-4级别模型了!关于这一点的一些记录:
1. Qwen2.5-Coder-32B是一个能很好编码的LLM,在我的Mac上运行,谈论的是11 月的Qwen2.5-Coder-32B ——一个采用Apache 2.0许可的模型!
1. 我现在可以在我的笔记本电脑上运行一个GPT-4类模型,讨论运行Meta发布的Llama 3.3 70B(于12 月发布)。
这对我来说仍然令人惊讶。我原以为像GPT-4这样具备能力和输出质量的模型需要一台或多台价值40000美元以上的数据中心级服务器。
这些模型占用了我64GB的内存,以至于我并不经常运行它们-它们并不留下太多空间给其他东西。
它们能够正常运行的事实证明了我们在过去一年中取得的惊人训练和推理性能提升。事实证明,在模型效率方面有很多低hanging fruit可以收获。我期待还有更多的收获。
Meta的Llama 3.2模型值得特别一提。它们可能不属于GPT-4类,但在1B和3B大小上,它们的性能远远超过它们的体积。我在我的iPhone上运行Llama 3.2 3B,使用免费的MLC Chat iOS应用程序,它是一个令人震惊的能力强大的模型,尽管其大小很小(
这是剩下的文本。虽然内容单调和普通,但是我的手机现在可以向Netflix推荐单调和普通的圣诞电影了!
过去十二个月中,使用一流托管的大型语言模型运行成本急剧下降。
2023年12 月(这里是OpenAI定价页面的互联网档案),OpenAI对GPT-4收费为每百万输入令牌30 美元,对当时新推出的GPT-4 Turbo收费为每百万令牌10 美元,对GPT-3.5 Turbo收费为每百万令牌1 美元。
今天,$30/mTok可以让你获得OpenAI最昂贵的模型,o1。GPT-4o价格为$2.50(比GPT-4便宜12 倍),而GPT-4o mini为每个mTok $0.15,几乎比GPT-3.5便宜7 倍,而且具有更强大的能力。
其他模型提供商甚至收费更低。Anthropic的Claude 3 Haiku(来自三月,但仍然是他们最便宜的模型)是每0.25美元/百万令牌。谷歌的Gemini 1.5 Flash是每0.075美元/百万令牌,而他们的Gemini 1.5 Flash 8B是每0.0375美元/百万令牌,比去年的GPT-3.5 Turbo便宜了27 倍。
我已经在我的llm-pricing标签下跟踪这些定价变化。
这些价格下降是由两个因素驱动的:竞争的增加和效率的提高。对于所有关心低碳生活方式环境影响的人来说,效率是非常重要的。这些价格下降直接关联到用于运行提示的能源消耗量。
AI数据中心建设对环境影响仍有很多需要担忧的问题,但对于单个提示的能源成本的许多担忧已不再可信。
这里有一个有趣的餐巾纸计算:使用Google的Gemini 1.5 Flash 8B(于十月发布),他们最便宜的型号,对我个人照片库中的68,000张照片生成短描述将会花费多少钱?
每张照片都需要260个输入标记和约100个输出标记。
260 * 68,000 = 17,680,000输入标记17,680,000 * $0.0375/百万= $0.66 100 * 68,000 = 6,800,000输出标记6,800,000 * $0.15/百万= $1.02
这是处理68,000张图像的总成本为1.68美元。这么便宜到了荒谬的地步,我必须三次确认我的计算是正确的。
那些描述有多好?这就是我从这个命令中得到的内容:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
4 对加利福尼亚科学院蝴蝶照片的反驳一个浅碟,可能是蜂鸟或蝴蝶喂食器,是红色的。碟子里可见到橙色水果片的碎块。
两只蝴蝶停在饲料盘上,一只是深棕色/黑色蝴蝶,带有白色/米色斑纹。另一只是一只大的棕色蝴蝶,身上有浅棕色、米色和黑色斑纹,还有明显的眼斑。较大的棕色蝴蝶看起来正在吃水果。
260输入标记,92 输出标记。成本大约为0.0024美分(少于1/400美分)。
这种效率提升和价格降低是我在2024年最喜欢的趋势之一。我希望在仅需一小部分能源成本的情况下获得LLMs的效用,看起来我们正在实现这一目标。
我的蝴蝶示例上面说明了2024年另一个关键趋势:多模态LLM的崛起。
一年前,这些中最引人注目的例子是GPT-4 Vision,在2023年11 月的OpenAI DevDay上发布。Google的多模态Gemini 1.0于2023年12 月7 日宣布,因此它也在2023年的窗口中(仅仅)符合要求。
在2024年,几乎每个重要的模型供应商都发布了多模态模型。我们在三月份见到了Anthropic的Claude 3系列,四月份是Gemini 1.5 Pro(图像、音频和视频),然后九月份推出了Qwen2-VL和Mistral的Pixtral 12B以及Meta的Llama 3.2 11B和90B视觉模型。十月份,我们从OpenAI获取了音频输入和输出,十一月份看到了Hugging Face的SmolVLM,十二月则是亚马逊Nova的图像和视频模型。
在十月,我将我的LLM CLI工具升级,以支持通过附件使用多模态模型。现在它已经为一整套不同的视觉模型提供了插件。
我认为抱怨LLM改进速度放缓的人经常忽视了这些多模型模型的巨大进步。能够对图像(以及音频和视频)运行提示是应用这些模型的一种迷人的新方式。
在2023年9 月,与ChatGPT对话的能力首次出现,但这主要是一种幻觉:OpenAI使用了他们出色的Whisper语音到文本模型和一个新的文本到语音模型(创意地命名为TTS-1)来实现与ChatGPT移动应用程序的对话,但实际模型只能看到文本。
GPT-4o的5 月13 日公告中包括展示全新的声音模式,真正的多模态GPT-4o(o代表“omni”)模型可以接受音频输入并输出非常逼真的语音,而无需单独使用TTS或STT模型。
这个演示声音与斯嘉丽·约翰逊的声音非常相似...在她抱怨了演示声音后,名为Skye的声音从未被用于产品生产。
发布新的语音模式演示后出现的延迟引起了一些混乱。我在“ChatGPT中,‘4o’模式尚未运行新功能”一文中写到。
当ChatGPT高级语音模式终于推出时(从8 月到9月逐渐推出),真是太棒了。我一直在遛狗时广泛使用它,令人惊讶的是语调的改善如何提高了材料的质量。我还很喜欢尝试使用OpenAI的音频API进行实验。
更有趣的是:高级语音模式可以模拟口音!当我告诉它,“我需要你假装是一只加州棕鹈鹕,有着非常浓重的俄罗斯口音,但你只用西班牙语跟我交流”的时候,发生了什么。
OpenAI并不是唯一拥有多模态音频模型的团体。Google的Gemini也接受音频输入,Google Gemini应用现在可以像ChatGPT一样进行语音回答。亚马逊也预告了Amazon Nova的语音模式,但预计将在2025年第一季度推出。
Google的NotebookLM于9 月发布,通过在他们的工具中输入内容,生成了两位“播客主持人”之间关于任何内容的逼真对话,将音频输出提升到了一个新的水平。后来他们添加了自定义指令,于是我自然地将它们变成了鹈鹕:
最近的另一个变化,同样来自12 月(12 月真的很多)是实时视频。ChatGPT语音模式现在提供了与模型分享摄像头视角并实时讨论所见内容的选项。Google Gemini也有相同功能的预览,他们设法在ChatGPT之前一天完成了发布。
玩耍:双子座2.0流媒体演示
这些能力目前只有几周大,我认为它们的影响还没有完全被感受到。如果你还没有尝试过它们,你真的应该试试。
Gemini和OpenAI也提供API访问这些功能。OpenAI最初使用了一个相当具有挑战性的WebSocket API,但在十二月份他们宣布推出了一个新的WebRTC API,更容易入门。现在构建一个用户可以通过语音与之交流的Web应用程序非常容易!
这在2023年是可能的,但其提供的价值在2024年变得明显。
LLMs在编写代码方面已经表现得相当出色。如果你正确引导它们,它们可以使用HTML、CSS和JavaScript构建一个完整的互动应用程序(如果你连接一些额外的支持构建机制,可以使用类似React的工具)-通常在一个提示中完成。
人类主义者通过发布“克洛德文物”这一突破性新功能将这一想法推向了高潮,然而由于在不可思议的克洛德3.5十四行诗的公告中部分描述得有些模糊,它刚开始在噪音中被忽视了。
拥有Artifact,Claude可以为您编写一个按需的交互式应用程序,然后直接让您在Claude界面内使用它。
这是由克劳德完全生成的我的“提取URL”应用程序。
我发现自己经常在使用这个。我注意到我在十月份有多么依赖它,并在这周写下了《我使用Claude Artifacts构建的一切》,描述了我在七天内放在一起的14 个小工具。
自那时起,许多其他团队也建立了类似的系统。GitHub在十月份宣布了他们的版本,GitHub Spark。Mistral Chat在十一月将其添加为一个名为Canvas的功能。
Steve Krouse来自Val Town,对抗Cerebras建立了一个版本,展示了一个每秒2,000个令牌的LLM可以对一个应用程序进行迭代,更改可在不到一秒钟内可见。
然后在12 月,Chatbot Arena团队推出了一个全新的排行榜,针对这一功能,用户可以使用两种不同的模型构建相同的交互式应用程序,并投票选出答案。很难想象出一个更有说服力的论点,证明这一功能现在已经成为可以有效对抗所有领先模型的商品。
我一直在为我的Datasette项目做这个版本的调整,旨在让用户使用提示来构建和迭代针对他们自己数据的自定义小部件和数据可视化。我还为使用uv实现单独Python程序找到了类似的模式。
这种基于提示驱动的定制界面功能非常强大且易于构建(一旦你弄清楚了浏览器沙盒化的复杂细节),我预计它将在2025年出现在很多产品中。
今年的几个月里,三款最佳的可用模型:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro,都可以免费提供给世界大多数地区使用。
OpenAI在五月份将GPT-4o对所有用户免费开放,而Claude 3.5 Sonnet则从六月份的发布起就免费提供。这是一个重大的改变,因为前一年的免费用户大多受限于GPT-3.5级别的模型,这意味着新用户对一个能力强大的语言模型能做到什么有一个非常不准确的心理模型。
那个时代似乎已经结束,很可能是永久的,因为OpenAI推出了ChatGPT Pro。这项每月$200的订阅服务是访问他们最强大的模型o1 Pro的唯一途径。
由于o1系列背后的技巧(以及它无疑将激发的未来模型)是投入更多的计算时间以获得更好的结果,我认为那些可以免费接触到最佳模型的日子不太可能会回来。
我发现“智能体”这个术语非常令人沮丧。它缺乏一个单一、清晰且被广泛接受的含义...但使用这个术语的人似乎从未承认这一点。
如果你告诉我你正在构建"智能体",你几乎没有向我传达任何信息。除非我能够读懂你的想法,否则我无法确定你指的是几十种可能定义中的哪一种。
我看到的两个主要类别是那些认为人工智能代理显然是可以代表你行动的事物的人-即旅行智能体模型,以及那些从给予工具访问权限,以便它们可以作为解决问题的一部分进行循环运行的LLM模型中思考的人。术语“自主性”也经常被提出,但同样没有包括清晰的定义。
我几个月前在Twitter上收集了211个定义,这里是它们在Datasette Lite中,并让gemini-exp-1206试图对它们进行总结。
无论这个术语是什么意思,智能体们仍然有着一种永远“即将到来”的感觉。
除了术语,我仍然对它们的实用性持怀疑态度,这主要基于易受欺骗的挑战。LLM们相信你告诉他们的任何事情。 任何试图代替你做出有意义决策的系统将遇到同样的障碍:如果它无法区分真相和虚构,旅行代理人、数字助理甚至研究工具有多好呢?
就在前几天,谷歌搜索被发现在全然虚构的电影“Encanto 2”上提供了一段完全虚假的描述。 原来它总结的是一个粉丝虚构维基上的想象电影清单。
Prompt注射是这种易受骗性的自然结果。我在2024年对解决这个问题的进展几乎没有看到任何进展,自2022年9 月以来我们一直在谈论这个问题。
我开始看到“智能体”的最流行理念本身依赖于AGI本身。一个对愚蠢免疫的模型确实是一个非常高的要求。
Anthropic的Amanda Askell(负责克劳德角色背后的许多工作):
好的,文翻译:好的系统提示的关键秘密是测试驱动开发。你不是先写下一个系统提示然后找方法来测试它。你是先写下测试,然后找到一个通过这些测试的系统提示。
2024年的过程清楚地表明,为基于LLM技术的系统编写好的自动评估是建立在这些模型之上的有用应用程序中最需要的技能。如果你有一个强大的评估套件,你可以比竞争对手更快地采用新模型,更好地迭代,并构建更可靠和有用的产品功能。
Vercel的Malte Ubl:
当@v0首次推出时,我们对保护提示感到非常谨慎,使用各种预处理和后处理复杂性。
我们完全转变思路,让其自由发挥。一个没有评估、模型,特别是用户体验的提示就像拿到一个没有说明书的坏掉的ASML机器。
我仍在努力找出如何为我的工作找到最佳模式。每个人都知道评估很重要,但对于如何最好地实施它们仍然缺乏很好的指导——我在我的“evals”标签下追踪这一点。我的SVG鹈鹕骑自行车的基准测试只是真正评估套件应该看起来如何的一个苍白模仿。
作为一名Mac用户,今年我对自己选择的平台感觉良好。
去年感觉没有一台带有NVIDIA GPU的Linux/Windows机器是个很大的劣势,无法尝试新模型。
在实际情况下,许多模型都是作为模型权重和库发布的,这些模型更加支持NVIDIA的CUDA而不是其他平台。
llama.cpp生态系统在这方面帮助很大,但真正的突破是Apple的MLX库,“一个适用于Apple Silicon的数组框架”。这太棒了。
苹果的mlx-lm Python支持在我的Mac上运行各种MLX兼容的模型,性能出色。Hugging Face上的mlx-community提供了超过1,000个已转换为必要格式的模型。
Prince Canuma的出色、快速的mlx-vlm项目也将视觉LLMs引入了Apple Silicon。我最近使用它来运行Qwen的QvQ。
虽然MLX是一个颠覆者,但苹果自己的“苹果智能”功能大多让人失望。我在六月份写过他们最初的公告,当时我对苹果专注于保护用户隐私并最大程度减少用户被复杂功能误导的LLM应用程序的子集表示乐观。
现在这些功能推出来后,它们相当弱。作为一个LLM高级用户,我知道这些模型的能力,而苹果的LLM功能提供的只是一个前沿LLM可以实现的功能的一部分。相反,我们得到的是误传新闻标题的通知摘要和我根本不觉得有用的写作助手工具。不过,Genmoji有点好玩。
12 推理扩展“推理”模型的崛起2024年第四季度最有趣的发展是引入了一种新型的LLM,以OpenAI的o1模型为例,最初于9 月12 日发布的o1-preview和o1-mini。
这些模型的一种思考方式是对思维链提示技巧的延伸,首次在2022年5月的论文《大型语言模型是零样例推理者》中进行了探讨。
这就是一个技巧,在这个技巧中,如果让一个模型大声说出它正在解决的问题,通常会得到一个模型本来无法实现的结果。
o1将这个过程进一步融入模型本身。细节有些模糊不清:o1模型花费“推理令牌”来思考问题,这些令牌对用户不直接可见(虽然ChatGPT界面会显示它们的摘要),然后输出最终结果。
这里最大的创新是它开辟了一种新的模型扩展方式:不仅通过在训练时提供额外计算资源来提高模型性能,现在模型可以通过在推理阶段花费更多计算资源来解决更难的问题。
o3的续集(由于欧洲商标原因跳过了“o2”)于12 月20 日宣布,针对ARC-AGI基准取得了令人印象深刻的成果,尽管这可能涉及超过100万美元的计算时间费用!
o3预计将于1月发货。我怀疑很少有人真正面临需要从那个计算水平中获益的实际问题-我肯定不需要!-但它似乎是LLM架构的一个真正的下一步,可以解决更棘手的问题。
OpenAI并不是此领域的唯一选择。谷歌于12 月19 日发布了他们在该类别中的首个产品gemini-2.0-flash-thinking-exp。
阿里巴巴的Qwen团队于11 月28 日发布了他们的QwQ模型-在Apache 2.0许可证下发布,我可以在自己的机器上运行。他们随后在12 月24 日推出了一个名为QvQ的视觉推理模型,我也在本地运行了这个模型。
DeepSeek于11 月20 日通过他们的聊天界面推出了他们的DeepSeek-R1-Lite-Preview模型。
了解推理扩展更多,我建议阅读Arvind Narayanan和Sayash Kapoor的文章《人工智能的进展减缓了吗?》。
Anthropic和Meta目前还没有任何消息,但如果他们没有在进行中的推理放大模型,我会感到非常惊讶。Meta在12月发布了一篇相关论文《在连续潜在空间中训练大型语言模型进行推理》。
并非完全一样,但几乎!这确实对于引人注意的标题来说非常好。
今年年底的重大消息是DeepSeek v3的发布-在圣诞节当天在Hugging Face上发布,甚至没有一个README文件,然后在第二天发布了文档和一篇论文。
DeepSeek v3是一个庞大的685B参数模型,是目前可公开获得的最大模型之一,显著大于Meta的Llama系列最大的模型Llama 3.1,即405B。
基准测试显示,这个模型与Claude 3.5 Sonnet不相上下。Vibe基准测试(又称Chatbot Arena)目前将其排名第7 ,仅次于Gemini 2.0和OpenAI 4o/o1模型。这是迄今为止排名最高的开放许可模型。
DeepSeek v3最令人印象深刻的地方在于训练成本。该模型在2,788,000个H800 GPU小时进行了训练,估计成本为$5,576,000。相比之下,Llama 3.1 405B进行了30,840,000个GPU小时的训练,是DeepSeek v3使用的训练时间的11 倍,但效果稍差。
美国对中国GPU出口监管似乎激发了一些非常有效的训练优化!
14 环境影响变得更好模型的效率提高所带来的一个受欢迎的结果是,在过去几年里,运行提示的能源使用量和环境影响已经大幅降低。
OpenAI自GPT-3时代起,与当下相比,为提示收费少了100倍。据可靠消息,谷歌的Gemini和亚马逊的Nova(两家最便宜的模型提供商之一)并没有亏损地运行提示。
我认为,作为个体用户,我们无需为大多数提示消耗的能源感到任何内疚。与开车或者观看YouTube视频相比,这种影响可能微乎其微。
同样,培训。DeepSeek v3的训练成本低于600万美元,这是训练成本可能会继续下降的一个很好的迹象。
对于效率较低的模型,我发现将它们的能源使用与商业航班进行比较是有用的。最大的Llama 3型号的成本大约与从纽约到伦敦的满载乘客航班的个位数相当。这当然不是小数目,但一旦训练完成,该模型可以无需额外的训练成本供数百万人使用。
15 环境影响变得更加严重问题在于未来这些模型所需的基础设施的竞争性建设规模巨大。
谷歌、元信息、微软和亚马逊等公司正在花费数十亿美元建设新的数据中心,对电力网和环境产生了非常重要的影响。甚至有人提到要建造新的核电站,但这需要数十年的时间。
这种基础设施是必要的吗?DeepSeek v3的600万美元的培训成本以及LLM价格持续下跌可能暗示着并非如此。但你会想成为那位辩称不要建造这种基础设施的大型科技高管吗,只是在几年后证明自己是错误的吗?
在这里进行有趣的比较的一个重点可能是19世纪时铁路在全球范围内的铺设方式。修建这些铁路需要巨额投资,对环境的影响也很大,而许多修建的铁路最终被证明是不必要的——有时候不同公司修建的多条铁路竟然服务于完全相同的路线!
造成的泡沫导致了几次金融崩溃,参见维基百科关于1873年的恐慌、1893年的恐慌、1901年的恐慌以及英国的铁路狂热。它们给我们留下了许多有用的基础设施,也造成了大量破产和环境损害。
2024年是"馏"这个词成为术语的一年。我在五月写了关于这一点的文章,并扩展了@deepfates的推文。
看着“slop”成为一个专业术语的实时情况。就像“垃圾邮件”成为不受欢迎的电子邮件的术语一样,“slop”正在字典中成为指代不受欢迎的人工智能生成内容的术语。
我稍微扩展了这个定义:
Slop描述了AI生成内容,这些内容既没有请求也没有审查。
我最后在《卫报》和《纽约时报》都被引用并讲到了"Slop"。这是我在《纽约时报》上所说的内容:
社会需要简洁的方式来讨论现代人工智能的正面和负面。"忽略那封电子邮件,它是垃圾邮件"和"忽略那篇文章,它是垃圾"都是有用的教训。
我喜欢“slop”这个词,因为它简洁地捕捉到了我们不应该使用生成AI的方式之一!
Slop甚至入围2024年度牛津词典年度词汇,但最终输给了brain rot。
一个令人意外地在公众意识中根深蒂固的想法是“模型坍塌”。这是首次在2023年5月的论文《递归的诅咒:在生成数据上训练会使模型遗忘》中描述的,随后在2024年7 月的《自然》杂志上,以更引人注目的标题“当AI模型在递归生成的数据上训练时会坍塌”中重复出现。
这个想法是诱人的:当互联网淹没在由人工智能生成的杂物中时,模型本身将会退化,通过以自己的输出为食,导致它们不可避免地走向灭亡!
这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上训练-故意创造人造数据来帮助引导他们的模型走向正确的方向。
我见过的对此最好的描述之一来自Phi-4技术报告,其中包括这样一段:
合成数据作为预训练的重要组成部分,变得越来越常见,Phi系列模型一直强调合成数据的重要性。合成数据并非有机数据的廉价替代品,而是具有几个直接优势的数据。
在有机数据集中,标记之间的关系通常是复杂而间接的。连接当前标记与下一个标记可能需要许多推理步骤,使模型难以有效从下一个标记预测中学习。相比之下,语言模型生成的每个标记定义上都是由前面的标记预测的,这使得模型更容易遇到推理模式。
另一种常见的技术是使用更大的模型来帮助创建训练数据,以用于它们更小、更便宜的替代品,这是越来越多实验室使用的技巧。DeepSeek v3使用由DeepSeek-R1创建的“推理”数据。Meta的Llama 3.3 70B微调使用了超过2500万个合成生成的例子。
精心设计进入LLM的训练数据似乎是创建这些模型的全部关键。只是抓取完整的网络数据并不加选择地转储到训练中已经过去很久了。
LLM是一种我一直在强调的高级工具-它们就像是伪装成厨房小刀的链锯。它们看起来简单易用-给聊天机器人输入消息有多难呢?-但实际上,您需要极深的理解和经验才能充分利用它们并避免它们的许多陷阱。
问题在2024年变得更加严重。
我们构建了可以用人类语言交谈的计算机系统,它们会回答你的问题,通常还会回答正确!...这取决于问题本身,以及你提问的方式,以及它是否在未经记录和秘密的训练集中得到准确反映。
可用系统的数量激增。不同系统具有不同的工具,可以应用于解决您的问题-如Python、JavaScript、网络搜索、图像生成,甚至可能是数据库查找...因此,您最好了解这些工具是什么,它们能做什么,以及如何判断LLM是否使用了它们。
你知道ChatGPT现在有两种完全不同的运行Python的方式吗?
想要构建一个与外部API通信的Claude Artifact?首先,你最好了解CSP和CORS HTTP头。
这些模型可能变得更有能力了,但大多数限制仍然保持不变。OpenAI的o1或许最终能够(大部分地)数出草莓中的R,但它的能力仍然受限于其作为一个LLM的本质以及所运行的束缚所加诸的限制。o1无法运行网络搜索或使用代码解释器,但GPT-4o可以在相同的ChatGPT界面中进行这些操作。(如果你要求o1执行这些操作,它将假装去执行,这是早在2023年初的URL幻觉bug的回归)。
我们对此做了什么?并不多。大多数用户被直接扔到了深水区。默认的LLM聊天界面就像是把全新的电脑用户扔到Linux终端,然后期望他们自己摸清楚一切。
与此同时,终端用户越来越普遍地形成了关于这些事物是如何运行以及它们的能力是什么的极不准确的心理模型。我见过太多人试图通过ChatGPT的截图来赢得一场争论,这本身是一个荒谬的主张,因为这些模型的固有不可靠性与你可以通过正确的提示让它们说出任何事情相结合。
这也有一个反面:很多信息较为准确的人完全放弃了LLM,因为他们看不出有谁能从一个有这么多缺陷的工具中受益。要充分利用LLM的关键技能是学会与同时具有内在不可靠和极其强大的技术一起工作。这显然是一个不明显的技能要获得!
这里有很多空间可以提供有益的教育内容,但我们需要做得更好,而不是把一切都外包给夸夸其谈的AI骗子和张扬的Twitter帖子。
大多数人现在已经听说过ChatGPT。有多少人听说过Claude?
那些积极关注这些事情的人和不关注的99%的人之间的知识差距是巨大的。
变化的步伐也并未有所帮助。就在过去的一个月里,我们已经看到了可以使用实时界面,您可以用手机的摄像头瞄准某物,并用您的语音谈论它的普遍可用性...并选择地让它假装成圣诞老人。大多数自我认证的书呆子甚至还没有尝试过。
鉴于这项技术对社会可能产生的持续影响,我认为这种差距的大小并不健康。我希望看到更多的努力投入到改善这一点上。
很多人绝对讨厌这种东西。在我经常出没的一些社区(比如Mastodon、Bluesky、Lobste.rs,甚至偶尔的Hacker News)里,甚至提到“LLMs是有用的”就足以引发一场巨大的争执。
我明白了。有很多原因让人不喜欢这项技术-环境影响,训练数据的道德(缺乏),可靠性不足,负面应用,对人们工作可能造成的影响。
LLMs绝对值得批评。我们需要讨论这些问题,找到减轻问题的方法,帮助人们学会如何负责任地使用这些工具,让积极的应用远远超过负面影响。
我喜欢对这些事情持怀疑态度的人。炒作已经持续了两年多,市面上有大量的神奇药水和错误信息。很多人基于这种炒作做出了很糟糕的决定。保持批判是一种美德。
如果我们希望拥有决策权的人做出关于如何应用这些工具的明智决定,首先需要承认存在着良好的应用,并帮助解释如何把这些应用付诸实践,同时避免许多不直观的陷阱。
如果你仍然认为没有任何好的应用,那我不确定你为什么能够看到这篇文章的这一点!
我认为告诉人们整个领域都是对环境灾难性的剽窃机器,不断虚构事物,无论这代表了多少真实,都是对这些人的不公平待遇。这里确实存在真正的价值,但要实现这个价值是不直观的,需要指导。
那些了解这一领域的人有责任帮助其他人弄明白。
因为我肯定错过了很多事情,这是我在2024年写的所有长篇文章,我用llms标记了。
一月
1. 第7 条:可以称之为人工智能。
1. 9th:关于“人工智能”一词,我应该说什么。
1. 17 日:在Oxide和Friends上谈论开源LLMs。
1. 26th: LLM 0.13:发布说明的注释版本
二月
1. 21 世纪:Gemini Pro 1.5的杀手级应用是视频
三月
1. 第五:提示注入和越狱不是同一回事。
1. 第8 条:GPT-4的壁垒终于被打破了。
1. 22 日:Claude和ChatGPT用于即兴副本任务。
1. 23 日:使用ChatGPT代码解释器构建和测试SQLite的C扩展。
1.26th: llm cmd undo last git commit—一个新的用于LLM的插件
四月
1. 第8 步:完全使用Claude 3 Opus构建文件到提示。
1. 第十:24 小时内发布了三款重要的LLM版本(以及周记)
1. 17th: AI用于数据新闻:展示我们现在可以用这些东西做什么
1. 22 日:通过使用LLM从终端访问Llama 3的选项。
五月
1. 第8 点:Slop是AI生成内容中的新名称。
1. 15 日:ChatGPT在“4o”模式下还未运行新功能。
1. 29th:训练并非与聊天相同:ChatGPT和其他LLMs并不会记住你说的一切。
六月
1. 第6 条:针对RAG应用程序的意外提示注入。
1. 第10 条:关于2024年WWDC发布会上的Apple Intelligence的思考。
1. 17th:在命令行上使用语言模型
1. 21 世纪:使用Claude、Datasette和Val Town构建基于搜索的RAG
1. 27 日:人工智能工程的挑战。
七月
1.14th: Imitation Intelligence, my keynote for PyCon US 2024 第14 届:《模拟智能》,我的PyCon US 2024主题演讲。
1. 19th:周记:GPT-4o迷你版,LLM 0.15,sqlite-utils 3.37和构建一个暂存环境
八月
1.6th: Weeknotes: a staging environment, a Datasette alpha and a bunch of new LLMs
1. 8th: django-http-debug,一个由Claude大部分编写的新的Django应用程序。
1. 23 日:Claude的API现在支持CORS请求,可以在客户端应用程序中使用。
1. 26 日:构建一个工具,展示Gemini Pro如何返回图像中对象的边界框。
九月
1. 第六点:从客户端JavaScript调用LLMs,将PDF转换为HTML +周记。
1. 10th:在《软件灾难播客》中对我的采访记录
1. 12th: OpenAI的新一代o1思维链模型的注释。
1. 20th:关于使用LLMs进行编码的注意事项
1. 29 日:NotebookLM自动生成的播客效果出乎意料好。
1. 30th: Weeknotes:三个播客,两次旅行和一个新的插件系统
十月
1. 1st: OpenAI DevDay 2024现场实况报道
1. 第二条:OpenAI DevDay:让我们构建开发者工具,而不是数字神。
1. 15 日:ChatGPT将为您写一份掩饰不深的星座运势。
1. 17th:通过从35 秒的屏幕截图中提取JSON数据,每不到1/10美分进行视频抓取。
1. 18th: OpenAI聊天补全API的音频输入和输出实验。
1. 19th:在Mac上使用mistral.rs运行Llama 3.2版本和Phi-3.5版本。
1. 21st:本周我用克劳德神器构建的一切。
1. 22 日:对人类学新电脑使用能力的初步探索。
1. 24 日:关于新的克劳德分析JavaScript代码执行工具的备注。
1. 27 日:使用llm-jq运行提示符来生成并执行jq程序。
1. 29 日:现在,您可以使用LLM在终端上针对图像、音频和视频运行提示。
1. 第30 周:十月份的月记。
十一月
1. 第4 首:克劳德3.5俳句
1. 第7 项任务:项目:VERDAD—使用Gemini 1.5跟踪广播中的错误信息。
1. 12th: Qwen2.5-Coder-32B是一个在我的Mac上运行良好的LLM。
1. 19th:从必应聊天记录中的笔记—我们第一次遇到操纵性人工智能
1. 25th:在您的终端中向SQLite数据库和CSV/JSON文件提问。
十二月
1. 第4 条:通过新的llm-bedrock插件对新的亚马逊Nova LLM进行的第一印象。
1. 7th: Prompts.js
1. 9th:我现在可以在我的笔记本电脑上运行一个GPT-4等级的模型。
1. 第十条:ChatGPT Canvas现在可以进行API请求,但这一过程比较复杂。
1. 第11 个:Gemini 2.0 Flash:一款具有出色的多模式LLM,并拥有科幻流媒体模式。
1. 19th:使用uv run和Claude Projects构建Python工具,通过一次性提示来实现。
1. 19th:双子座2.0闪存“思考模式”
1. 12 月20 日是LLMs程序中的一个重要日期。
1.20th: Live blog: the 12th day of OpenAI—"Early evals for OpenAI o3"
1. 24 日:尝试使用QvQ-Qwen的新视觉推理模型。
1. 31 日:2024年我们对LLM(Large Language Models)的了解 #结果输出:31 日:2024年我们对LLM(大型语言模型)的了解
使用Django SQL仪表盘生成的该列表,由Claude为我编写了一条SQL查询。
发表于2024年12 月31 日下午6:07 ·
1.我仍然认为公司不会通过窃听你的麦克风来向你展示广告- 2025年1 月2 日
1. 结束一年的连续发布记录- 2025年1 月2 日
来源:人工智能学家