中文大语言模型崛起的划时代意义

360影视 欧美动漫 2025-05-22 09:33 2

摘要:随着DeepSeek等中文大语言模型异军突起,中国在大语言模型开发和应用方面与美国并驾齐驱。目前全球前50大语言模型中,中美两国占据超80%席位。但“中美两国竞技”的故事和大模型的技术共性不应遮蔽中美大模型在语言载体、历史根基和发展路径层面的实质性差异——美国

随着DeepSeek等中文大语言模型异军突起,中国在大语言模型开发和应用方面与美国并驾齐驱。目前全球前50大语言模型中,中美两国占据超80%席位。但“中美两国竞技”的故事和大模型的技术共性不应遮蔽中美大模型在语言载体、历史根基和发展路径层面的实质性差异——美国大模型依托的是自近代英国向外扩张以来成为世界语言的英语,中国大模型依托的中文非但不曾享受“殖民红利”,反而在近现代数次面临发展危机。根植于中国式现代化历史土壤并对广大南方国家有更直接参考和应用价值的中文大模型的崛起,并非技术扩散或迭代可以概括,其对人类文明的全局性贡献亦远超具体技术参数范畴。

大语言模型对人类语言等级的内化与放大

自计算机出现以来,人类长期通过本质上是一种精确的、不受语境干扰的、总量有限的指令集的编程语言与计算机交互。而所有编程语言最终都可以编译为最基本的二进制机器指令来驱动计算机硬件运行。编程语言尽管多样,但任意一种编程语言不会因为地域、历史的原因分化出多种形态。硅谷、北京或是印度班加罗尔的程序员使用的Python遵循同一套严格的语法。相比编程语言,人类自然语言的生成却会因语境有别,自然语言表达的语义和语用并不像编程语言那么精确,但这种模糊性却又蕴含了无限的创造性。大语言模型凭借计算机远超人类个体的信息储存和处理能力,通过统计海量人类自然语言文本中词语的共现规律生成回答,高效地以人类自然语言完成文本生成、翻译、回答等任务。但也因为这个原因,基于自然语言学习技术的大语言模型比以往的任何计算机技术都更接近人类自然语言体系的延展。

以庞大而多样的语言符号体系为载体和媒介的文化既是人类文明的核心组成部分,同时也是人类历史发展的产物。当代世界的语言格局受制于现代世界体系,存在中心语言与边缘语言的不平等结构。自近代以来,英语开始在通行范围上超越其他语言。尤其是19世纪中期英国在印度等地推广以殖民官员托马斯·麦考利命名的、培育接受全英语教育的精英阶层的“麦考利主义”后,南亚、东南亚和非洲殖民地也源源不断向英语世界输送人力和思想,为英语全面超越其他殖民宗主国语言奠定了基础。

由来自世界各地的以英语为通用语的科技人才在美国硅谷合力开发的、以人类自然语言为学习对象的大语言模型,在其兴起之初比其他计算机技术在更大程度上内化甚至放大了以英语为中心语言的等级结构。英语是使用人口最多的语言,是50多个国家的官方语言,母语人口排名全球第三。相比之下,GPT-3训练过程中使用的语料92.65%为英语,第二大训练语料法语只占1.82%,中文仅占0.1%。

因此,到中文大模型崛起之前,大语言模型的发展轨迹印证了过去几十年美国向世界讲述的单一中心的发展故事——美国负责创新,他人负责模仿。美国AI概念股连创新高、美国“断崖式领先”的宣传达到空前程度,也是AI大语言模型内化并放大人类自然语言及现代世界体系“中心—边缘”结构的产物。

中文大模型异军突起的历史根源

引领发生在美国的大模型技术突破的OpenAI的核心技术团队来自世界各地。相应地,ChatGPT的技术突破也顺着这一跨国人员流动和知识生产网络传播到世界各地。随着大语言模型技术的不断迭代,即便对训练语料高度稀缺的小语种,也可以通过多语词典或翻译对齐等数据增强策略提升多语言大模型的训练效果,减少对传统语言资源的依赖。虽然这些方法仍不足以完全克服低资源导致的劣势,即由大规模语言模型及其背后的Scaling Laws驱动的模型泛化性和从数据中捕获复杂模式的能力,但已经可以确保弱势语种不至于在人工智能时代完全出局。大语言模型一如人类历史上其他重大技术突破一样,不再受困于具体的政治、文化边界。那么,为何中文而非其他非西方语言率先在大语言模型方面形成可以与硅谷并驾齐驱的技术创新?

要回答这一问题,我们可以比较向硅谷输送了大量技术人才的中国和印度。印度是英国“麦考利主义”政策的试验区,以本民族语言为通用语的下层民众与以英语为通用语的上层精英的隔阂巨大。自幼接受英语教育的印度孩子读写本民族语言水平参差不齐。理工医等现代自然科学以及学院派人文社科研究主要以英语为学术语言,印地语等民族语言并没有建立起完整的知识体系。以上原因导致印度纸面数据规模可观的青年人才红利因语言—阶层隔阂难以释放活力,印地语等民族语言语料库的知识体系也存在先天不足。

中国学生向英语世界大规模留学起步较晚。但是,新中国的教育体系成功地使中文教育和研究覆盖社会各阶层,并涵盖文理农工医等各学科。这不仅避免了中国出现限制人才红利释放的语言—阶层隔阂,更为日后中文大模型训练积累起知识门类齐全的中文语料库。在此基础上,改革开放后投入大量人力、物力铺开的英语教育迅速提升了中国知识生产对话、吸收外部经验的能力。中国海外留学人员回国服务,进而拉动知识和产业发展的实效,为在本土高校直接培养国际前沿科技人才、在新赛道上追赶和超越播下了种子。

“双重破窗效应”及其前景

发生在美国的大语言模型创新是全球化的重要智慧结晶。中国和其他国家的留学生为美国学界和业界提供了优秀的劳动者,扩大了英语学术对其他欧洲语言的优势地位,带动了美国科技产业的发展。若美国能客观理性地看待中外人员和科技交流,本可释放出更大的活力。不过,美国限制对华高端算力出口,也反过来刺激了中国科技行业开发出更能发挥中文语言优势、低算力需求的中文大模型,从而出乎美国业界和政界意料,引发了由“效率革命”和“开源革命”构成的、对“中心—边缘”结构有巨大破坏作用的“双重破窗效应”。

DeepSeek等中文大模型通过技术创新,实现了一次“参数效率革命”。通过混合专家模型和基于低秩联合压缩的多头潜在注意力机制显著优化了模型架构,从而在较低算力需求下实现了与顶级模型相当的智能水平。其核心强化学习算法GRPO以及高质量的长思维链训练样本进一步提升了GPU运算效率和推理效果。鉴于人工智能相比人类智能的一大劣势便是高能耗,可以说DeepSeek的“轻量化突围”是一次人工智能技术的重大创新。

除向世界证明完全可以用非西方语言训练出高质量大模型外,中文大模型的另一大贡献在于开源。纵观人类历史,生产力技术或因为种种历史偶然性兴起于特定时空点位,但它只有在不断传播扩散,并与越来越多样的应用场景的结合中才能持续发展。OpenAI的大模型训练以冒着侵犯知识产权的风险学习全人类共享的自然语言庞大知识库为基础,却因与硅谷产业资本利益绑定而选择垄断技术的闭源模式。而正是低算力需求的DeepSeek和通义系列等中文大语言模型的连续开源,已经成功倒逼OpenAI等国内外科技企业的闭源大模型开始重新转向开源,将人工智能从技术垄断的路径依赖拉回了开放的互鉴共生的发展轨道。

我们相信总有一天,殖民时代遗留至今的现代文明单一中心论也将借由去中心化的人工智能技术被彻底解构,而人工智能也有望在以多元语言为基础的文化交流互鉴的过程中,与人类文明进一步深度融合。

(本文系国家社科基金重大项目“世界诸文明在印度洋地区的交流交汇研究”(23&ZD324)阶段性成果)

来源:中国社会科学网

相关推荐