摘要:加入我们的新闻通讯以获取关于人工智能(AI)的最新动态和独家内容。在过去两年中,围绕AI的叙事发生了显著变化,曾被视为变革性技术的AI如今面临局限性。研究人员越来越依赖合成数据,这导致AI模型的质量下降,产生错误输出,形成“垃圾进,垃圾出”的恶性循环。模型崩溃
加入我们的新闻通讯以获取关于人工智能(AI)的最新动态和独家内容。在过去两年中,围绕AI的叙事发生了显著变化,曾被视为变革性技术的AI如今面临局限性。研究人员越来越依赖合成数据,这导致AI模型的质量下降,产生错误输出,形成“垃圾进,垃圾出”的恶性循环。模型崩溃现象使得AI系统失去与真实数据的联系,产生无意义的结果,严重影响各领域的应用。企业应采取实际步骤确保AI的安全发展,包括投资数据来源工具、部署AI驱动的过滤器、与可信数据提供商合作,以及促进数字素养和意识。通过这些措施,企业可以确保AI系统的准确性和可信性,从而推动AI的负责任发展,为社会带来真正的益处。
订阅我们的日常和每周新闻通讯,获取关于行业领先的人工智能(AI)报道的最新动态和独家内容。保持信息灵通,深入了解该领域的进展。
在快速发展的科技领域,围绕人工智能(AI)的叙事发生了巨大的变化。就在两年前,AI被誉为“将统治一切的下一个变革性技术”。然而,AI并没有朝着类似于天网的全能智能发展,反而在讽刺中经历了衰退。曾被视为新智能时代的先驱,AI如今似乎正处于踌躇之中,挣扎于自身的局限性。这一衰退的根源可追溯到AI生存所需的关键要素:人类生成的数据。
为了满足对数据的无尽渴求,研究人员和组织越来越多地转向合成数据。尽管在AI开发中使用合成数据已是长期以来的做法,但对其的过度依赖已成为问题,导致AI模型质量的逐渐下降。这一问题不仅仅局限于诸如ChatGPT等工具所产生的低劣结果;其影响远比这更为严重和令人担忧。
当AI模型在训练时使用以前版本的输出时,它们面临着传播错误和增加噪声的风险,这最终导致输出质量的下降。这一递归循环将“垃圾进,垃圾出”的熟悉谚语转变为一个自我强化的困境,严重削弱了AI系统的有效性。随着AI与人类理解和准确性的背离,它不仅妨碍了性能的提升,还引发了对依赖自生成数据进行进一步AI开发的长期可持续性的重大担忧。
这种退化超越了单纯的技术衰退;它威胁着现实、身份和数据真实性的基本结构,对人类和社会构成严重风险。潜在的连锁反应可能深远,导致各个领域的重大错误。随着这些模型变得越来越不准确和不可靠,后果可能是严重的,包括医疗误诊、财务损失,甚至是危及生命的事故。
企业可以采取哪些实际步骤来保护客户和用户?为了解答这个问题,我们首先需要理解这些问题是如何展开的。随着AI生成内容在网上的激增,它越来越快地渗透到数据集和模型本身。这种快速传播使得开发者难以隔离真实的人类生成的训练数据。现实是,将合成内容纳入训练中可能会引发一种有害现象,称为“模型崩溃”或“模型自噬障碍(MAD)”。
模型崩溃代表了一种退化循环,AI系统逐渐失去与其设计所要建模的真实数据分布的联系。这种情况通常发生在AI在自身生成内容上进行递归训练时,导致一系列挑战。这些挑战包括细微差别的丧失、多样性的减少、对边缘群体的偏见加剧,以及产生无意义的输出。一个显著的例子是发表在《自然》上的一项研究,展示了在AI生成文本上递归训练的语言模型的快速退化。在第九次迭代时,这些模型产生了完全无关和无意义的内容,展示了数据质量和模型效用的迅速下降。
企业组织在以负责任的方式塑造AI的未来中扮演着关键角色。他们可以采取明确的可行步骤,以确保AI系统保持准确和可信。首先,投资数据来源工具可以帮助组织追溯每个数据片段的起源,并跟踪其随时间的演变。这种透明度增强了对AI输入的信心,帮助避免不可靠或偏见信息的陷阱。
此外,部署AI驱动的过滤器以检测合成内容至关重要。这些先进的过滤器可以在AI生成或低质量内容渗透到训练数据集之前进行拦截,确保模型从反映现实复杂性的人类创造的真实信息中学习。与可信的数据提供商建立合作关系也是有益的,因为这使得组织能够维持稳定的真实高质量数据供应。这种做法确保AI模型扎根于真实而细致的信息,从而提升性能和相关性。
在团队内部和客户之间促进数字素养和意识也是另一个重要步骤。通过教育利益相关者关于数据真实性的重要性,组织可以培养一种重视准确性和完整性的AI开发文化。AI的未来依赖于今天采取的负责任行动。企业有独特的机会通过优先考虑人类来源的数据、利用有效的过滤工具以及鼓励对数字真实性的关注,将AI扎根于准确性和完整性。我们共同努力,争取一个AI既强大又真正有益于社会的未来。
Rick Song是Persona的首席执行官和联合创始人。
来源:老孙科技前沿一点号