大语言模型对语言学理论带来挑战

360影视 2024-12-25 08:00 3

摘要:当前,大语言模型的快速迭代演进展现出惊人的自然语言处理能力,这一进展对语言学理论带来了新的挑战。2023年,乔姆斯基(Noam Chomsky)在《纽约时报》刊发《ChatGPT的虚假承诺》一文,认为大语言模型只是基于大量数据的模式匹配,缺乏对语言的真正理解,

当前,大语言模型的快速迭代演进展现出惊人的自然语言处理能力,这一进展对语言学理论带来了新的挑战。2023年,乔姆斯基(Noam Chomsky)在《纽约时报》刊发《ChatGPT的虚假承诺》一文,认为大语言模型只是基于大量数据的模式匹配,缺乏对语言的真正理解,是一种“高科技剽窃”。对此,辛顿(Geoffrey Hinton)针锋相对,认为大语言模型在理解和认知能力上存在巨大潜力。这两位学术巨擘之间的“激烈交锋”不仅涉及技术层面的讨论,更触及语言本质及人类认知等根本性问题。这场争论反映了人工智能技术和语言学理论的碰撞,同时也促使我们重新思考人工智能在未来语言学研究中的地位。

语言习得:先天机制vs数据驱动

乔姆斯基是20世纪最具影响力的语言学家,也是生成语言学理论的奠基者。他提出语言能力具有先天性,主张人类大脑中存在由生物遗传决定的认知机制,即“语言机能”(language faculty)。根据乔姆斯基的理论,人类在出生时便具备这种与生俱来的语言能力,使得个体能够理解和生成无数句子。该语言机能由大脑中的特定模块支持,能够在有限的语言输入条件下,帮助个体迅速推导出复杂的语法规则和句子结构。“贫乏输入现象”(poverty of stimulus)进一步支持了这一观点,即儿童可以生成他们从未听过的复杂句子,这表明他们能够从有限的语言输入中推导出更复杂的语言结构,反映了先天语言能力的存在。

对此,辛顿持有截然不同的观点,他批评乔姆斯基的先天性假说存在误导性。他认为,语言学习并不依赖于先天的普遍语法机制,而是基于环境输入和经验的累积,是一个典型的数据驱动过程。比如,一些大语言模型并不需要内在的先天结构或预设的语言规则,仅通过对大量数据的学习,便能够生成流畅且符合语言习惯的自然语言表达。这些模型的成功有力地证明了,语言能力可以通过丰富的语言输入和持续的反馈机制进行培养,而非源自生物遗传的语言机能。

语言机制:普遍语法vs向量表示

乔姆斯基的生成语言学理论的核心概念是“普遍语法”(Universal Grammar),即所有人类语言都基于一套内在、通用的规则系统。尽管不同语言在表面上存在显著差异,但它们的深层结构却共享共同的原则和约束,这些原则正是由普遍语法所决定。普遍语法的一个关键特征是递归性(recursion),即语法规则可以嵌套使用,从而生成更加复杂的句子结构。凭借这一递归特性,人类能够在有限的词汇和规则基础上,创造出无数句子,表达出丰富多样的思想和观点。

与乔姆斯基的观点相对,辛顿强调大语言模型的生成机制不依赖于预设的固定规则,而是通过神经网络中的向量表示(vector representation)实现语言生成。在神经网络中,信息以高维向量的形式表示,这些向量在多层网络中传播,逐渐捕捉复杂的数据模式和特征。在这一机制下,语言、图像或其他类型的数据被转化为可通过数学运算处理的向量。通过训练,网络学习利用这些向量生成有意义的输出,如自然语言句子或图像。向量表示使得模型能够在高维空间中识别数据的相关性和模式,这正是其生成能力的基础。

模型语言:模仿拼凑vs推理预测

乔姆斯基认为,大语言模型无法真正理解语言。在他的观点中,大语言模型只是通过对大量数据进行统计分析来模仿人类的语言行为,并不能深入理解语言背后的含义。这些模型只是在拼凑已有的数据,无法展现真正的理解力。大语言模型所展现的语言能力仅是一种表面上的模仿,而非真正的理解。虽然通过训练数据中的模式识别和词汇关联,这些模型能够生成看起来有意义的文本,但实际上它并没有语义上的理解或推理能力。真正的语言能力包含推理、意义构建和背景知识的整合,而大语言模型显然缺乏这些核心要素。

辛顿与乔姆斯基的观点截然不同。他认为,大语言模型通过神经网络在某种程度上实现了语言理解。在神经网络中,语言符号被表示为高维向量,这些向量通过多层神经元之间的互动生成下一个符号的向量。这一过程不仅是简单的文本自动补全,更类似于深层特征分析与关系预测。理解的过程本质上在于如何将符号转化为向量,以及这些向量如何相互作用以预测后续符号。对于大语言模型所产生的“幻觉”(hallucination),辛顿将它视为一种非故意虚构(confabulation)。这意味着,模型并非故意“捏造”信息,而是在数据不足或存在不确定性时,根据已有特征进行预测,这与人类的思维方式十分相似。

争论带来语言学新发展

辛顿与乔姆斯基的争论揭示了两种截然不同的语言理解路径:一方强调规则与结构,另一方则依赖数据与算法。这不仅是学术观点的对立,更反映了人类认知与机器智能在运作机制上的根本差异。这场争论为未来语言学与人工智能的结合提供了深刻启示:在探索语言本质时,我们需要在规则导向的语言理论与数据驱动的学习模型之间寻求平衡,将语言学与深度学习技术结合,以构建更具解释力的语言模型。尽管大语言模型目前还是一个“黑箱”,缺乏可解释性,但它在自然语言处理领域取得的巨大成功,特别是在“涌现”(emergence)能力上的表现,拓宽了语言学研究视野,展现了巨大的科学价值。

对此,未来的研究者应保持理性审慎的态度,既不能夸大这些模型的理解能力,也不能忽视其在处理复杂数据和语言生成方面的应用潜力。大语言模型不仅为语言学研究提供了全新的实验平台,也促使我们从更广泛的角度重新思考语言、认知与智能的关系。这些模型的持续发展,或将成为推动语言学理论变革的关键力量,引领学界深入理解语言生成机制及其背后的认知过程。

来源:人民日报党媒平台

相关推荐