摘要:在科技日新月异的今天,人工智能(AI)领域正经历着一场前所未有的变革,而中国的科技公司正站在这场革命的最前沿,引领着全球AI技术的创新与发展。阿里巴巴、腾讯、快手、百度和字节跳动等中国互联网巨头,纷纷加大对人工智能的投资,认识到AI技术有可能彻底改变他们的业务
在科技日新月异的今天,人工智能(AI)领域正经历着一场前所未有的变革,而中国的科技公司正站在这场革命的最前沿,引领着全球AI技术的创新与发展。阿里巴巴、腾讯、快手、百度和字节跳动等中国互联网巨头,纷纷加大对人工智能的投资,认识到AI技术有可能彻底改变他们的业务,并保持其在全球市场的竞争力。
就在几个月前,DeepSeek还是一家相对不为人知的初创公司,但如今,它已迅速崛起为老牌人工智能巨头的强大挑战者,标志着许多人所说的中国“聊天技术时刻”。DeepSeek的崛起不仅重塑了全球人工智能行业的格局,也推动中国互联网公司进入了一个创新和竞争的新时代。
DeepSeek:颠覆人工智能产业
DeepSeek,尤其是其推出的R1模型,在人工智能社区引起了轩然大波。这家初创公司的突然崛起,可归因于几个关键因素:
首先是成本效益。与西方同行相比,DeepSeek R1的开发成本只是其中的一小部分。该公司声称只花了600万美元用于训练模型的计算能力,远远低于ChatGPT或谷歌的Gemini等模型的估计成本。这使得DeepSeek在成本控制方面具有显著优势,能够更高效地利用资源进行研发。
其次是性能卓越。尽管开发成本较低,但DeepSeek R1已经展示了令人印象深刻的功能。它在关键指标上可以与规模更大的竞争对手相媲美,甚至在某些方面超越了它们。这种出色的性能表现,使得DeepSeek R1在AI领域脱颖而出。
再者是定价策略。与OpenAI模型相比,DeepSeek提供的每个代币的成本要低得多。这使得DeepSeek成为开发人员和企业的经济高效解决方案,降低了他们使用AI技术的门槛。
此外,DeepSeek还采取了开源方法。与许多专有模型不同,DeepSeek以相对开源的方式发布了R1模型,允许研究人员和开发人员自由访问和修改代码。这种开源精神促进了AI技术的共享与创新,推动了整个行业的发展。
最后是效率优势。DeepSeek R1采用混合专家(MoE)架构,每次向前传递6710亿个参数,只激活370亿个参数。这种设计确保了模型的可伸缩性,而不会按比例增加计算成本。这使得DeepSeek R1在处理大规模数据时更加高效,能够满足不同场景下的需求。
DeepSeek的出现产生了深远的影响。它挑战了开发尖端人工智能模型需要大量资源的观念,促使全球重新评估人工智能发展战略。同时,DeepSeek的成功也突显了在限制条件下的创新潜力。尽管面临美国芯片出口限制等挑战,但DeepSeek仍然凭借自身的努力和创新精神,开发出了具有世界领先水平的AI模型。
中国互联网巨头:加速人工智能投资
DeepSeek的突破引发了中国互联网巨头之间的人工智能军备竞赛。阿里巴巴、腾讯、快手、百度和字节跳动等公司纷纷加大对人工智能的投资力度,认识到AI技术有可能彻底改变他们的业务,并保持其在全球市场的竞争力。
阿里巴巴作为中国电商领域的巨头,一直在积极探索人工智能技术的应用。最新、最先进的大型语言模型(LLM)Qwen 2.5-Max就是其努力的成果。这个模型使用了像DeepSeek这样的MoE架构,并且已经接受了超过20万亿个令牌的训练。Qwen 2.5-Max在多个基准测试中表现出色,在各种测试中表现优于DeepSeek-V3、gpt-40和Llama-3.1-405B等型号。该模型有不同的尺寸,参数从30亿个到720亿个不等,包括基本版本和指令调整版本。Qwen 2.5-Max擅长语言理解、编码、数学和推理,还具有多模式功能,允许它处理文本和视觉输入。阿里巴巴通过其生成式人工智能开发平台model Studio上的API使该模型可访问,使全球开发人员能够利用其功能。
此外,阿里巴巴还投资了人工智能初创公司Moonshot AI。Moonshot AI于2025年1月推出了其最新型号Kimi k1.5。这个多模态推理模型已经证明了与OpenAI的GPT-01相当的性能,特别是在数学任务上表现出色。Kimi k1.5具有128k令牌的扩展强化学习(RL)上下文窗口,并采用先进技术来增强RL策略优化。该模型在各种基准测试中显示出令人印象深刻的结果,包括AIME得分77.5分和MATH 500得分96.2分。Kimi k1.5在多模态推理任务方面也表现出色,比如MathVista,这需要对几何和智商测试等复杂科目进行视觉理解。Moonshot AI专注于长上下文处理和多模态推理,将Kimi k1.5定位为不断发展的人工智能领域中多功能和强大的工具。
腾讯作为中国互联网行业的另一巨头,也在人工智能领域取得了显著进展。其旗舰LLM浑源大是一个总参数3890亿、激活参数520亿的开源模型。浑源-large于2024年底发布,采用先进的MoE架构,以7倍的激活参数实现相当于密集模型的性能。该模型在中文和英文语言处理方面都表现出了强大的能力,在许多关键基准测试中都优于Meta的Llama 3.1 405B。浑源-large可以处理多达256000个令牌的上下文,适合需要广泛上下文和详细分析的应用程序。腾讯已经在HuggingFace和GitHub等开发者友好型平台上提供了该模型,鼓励人工智能社区的广泛采用和创新。
快手作为短视频领域的佼佼者,也在积极探索人工智能技术的应用。其领先的大型语言模型(LLM)(实际指AI模型)快意自推出以来取得了显著的进步。截至2025年初,快意的整体性能已大大超过GPT-3.5,并在某些指标上接近GPT-4的能力。该模型在内容创建、信息咨询、数学解题等方面表现出色,性能与ChatGPT基本相当。快意是快手综合AI模型矩阵的一部分,该矩阵还包括推荐模型和视觉生成模型。快手最近还推出了“可灵”(Kling),这是一种文本到视频的模型,可以生成长达两分钟的1080p分辨率的高质量视频。快手的人工智能创新旨在重塑其内容创作和商业生态系统,为用户提供先进的视频生成和创意表达工具。
百度作为中国领先的搜索引擎公司,也在人工智能领域取得了重大进展。其凭借Ernie大型语言模型(LLM)(实际指AI模型)继续在AI领域深耕细作。百度计划在2025年初发布新版本的Ernie,旨在提高其性能、准确性,并支持不同的用户需求。截至2024年底,Ernie每天要处理令人印象深刻的15亿个请求,每天处理超过1.7万亿的文本令牌,比前一年增长了30倍。百度首席执行官李彦宏预测,在各行各业快速部署生成式人工智能的推动下,到2025年人工智能应用将出现“指数级”增长。该公司还推出了新的人工智能工具,包括文本到图像生成器I-RAG和无代码应用程序构建器,作为其人工智能技术商业化战略的一部分。
字节跳动作为短视频和社交媒体领域的后起之秀,也在人工智能领域展现出了强大的实力。其于2025年1月发布的豆宝1.5 pro代表了该公司人工智能能力的重大进步。该模型采用了稀疏的MoE架构,在激活参数增加7倍的情况下,实现了与密集模型相当的性能。豆宝1.5 pro在各种基准测试中表现出了令人印象深刻的结果,在知识、编码、推理和中文处理方面超过了gpt-40和Claude 3.5 Sonnet等模型。该模型还具有“深度思考”模式,通过广泛的强化学习技术增强其推理能力。字节跳动还为豆宝引入了多模式功能,包括文本、图像和音频处理,以及即将推出的文本转视频功能。尽管拥有先进的功能,但字节跳动为豆宝保持了具有竞争力的价格,使其广泛适用于个人和企业。
对中国互联网公司的启示
中国企业人工智能模型的快速发展具有深远的影响。首先,这些AI模型将使中国互联网公司能够为其庞大的用户群提供更复杂、更个性化的服务。从改进的搜索功能到更有吸引力的社交媒体体验,人工智能将改变用户与数字平台的互动方式,提升用户体验和满意度。
其次,DeepSeek R1、Qwen2.5-VL等人工智能模型可以显著提高运营效率。例如,阿里巴巴的模型可以通过改进产品推荐和简化物流流程,彻底改变电子商务行业的运作模式。这将有助于降低运营成本,提高业务效率,增强企业的竞争力。
再者,这些人工智能模型的多模式功能为医疗保健、金融和教育等行业带来了无限可能性。中国互联网公司可以利用这些技术开发出适合当地需求的创新解决方案,推动相关行业的数字化转型和升级。
最后,随着这些人工智能模型的不断改进和完善,它们将使中国公司在全球市场上更有效地竞争。这可能会导致全球越来越多地采用中国的人工智能解决方案,提升中国在全球AI领域的地位和影响力。
值得注意的是,自ChatGPT于2022年11月推出以来,纳斯达克100指数上涨了81.6%,而KraneShares CSI中国互联网ETF(KWEB)同期仅上涨了17.5%。这表明,尽管中国互联网公司在AI领域取得了显著进展,但其市场估值仍有待进一步提升。我们认为,对中国互联网公司来说,DeepSeek的崛起可能成为“聊天时代”的时刻,并可能导致这些公司的估值重估,更接近它们的美国同行。
结论
总之,DeepSeek的突破不仅展示了中国生产世界级人工智能模型的能力,还在中国科技领域掀起了新一轮的创新和投资浪潮。随着阿里巴巴、腾讯、快手、百度和字节跳动等互联网巨头继续推动人工智能技术的发展和创新,我们可以预期,在中国和全球范围内,数字服务的交付和消费方式将发生革命性的变化。
本文源自金融界
来源:金融界