跃迁之年，中国AI如何推开下一扇门？——《财富》对话昆仑万维董事长兼CEO方汉

摘要：从1950年阿兰·图灵提出“图灵测试”理论到1956年达特茅斯会议上“人工智能”这一概念正式诞生。从1975年个人电脑的问世，到2023年“AI元年”通用人工智能逐渐从实验室和科幻文学里梦呓似的畅想中褪下了神秘的面纱，走进了普罗大众的日常生活。人类与AI的关系

2025年，正站在半个世纪的中点。

从1950年阿兰·图灵提出“图灵测试”理论到1956年达特茅斯会议上“人工智能”这一概念正式诞生。从1975年个人电脑的问世，到2023年“AI元年”通用人工智能逐渐从实验室和科幻文学里梦呓似的畅想中褪下了神秘的面纱，走进了普罗大众的日常生活。人类与AI的关系，仿佛正在经历一次文明重构。

而2025年，则更像是中国AI产业的“跃迁之年”。2月初，DeepSeek发布的多项震撼业界的能力测评数据显示，它在代码生成与复杂推理任务中，首次稳定逼近GPT-4 Turbo，并凭借128K上下文与更轻量的部署架构，赢得了全球开源开发者社群的交口赞誉。与此同时，百度“文心”、阿里巴巴“通义”、字节跳动“豆包”等一线大模型加速迭代，多模态、Agent原生与RAG产品纷纷落地。

国产大模型集体从参数军备竞赛中抽身，转向实际落地与商业闭环的构建。当硅谷纠结于模型闭源与算力边界时，中国的工程师与企业家开始重新书写“智能社会”的逻辑。他们在问：AI该为谁服务？数据权该如何分配？模型的边界应由谁来定义？他们不仅在技术能力上缩小差距，更在思维模型、产业结构和治理逻辑上，尝试给出另一种答案。今年，中国AI产业迎来了自己的尤里卡时刻（eureka moment）。

3月26日，昆仑万维科技股份有限公司正式发布了全球首款推理大模型Mureka O1与基座模型Mureka V6，凭借推理能力的突破与生成质量的显著提升，Mureka O1正式宣告AI音乐创作进入“推理时代”，并在与 Suno V4 的正面对比中完成数项超越，数据显示，Mureka O1在主观评测中整体听感、人声、BGM 与混音表现全面优于 Suno V4，在配器丰富度、作曲结构和旋律动机等细节指标上亦有显著优势。此外，包括发音准确率、段落连贯性、文本匹配度及制作复杂度，均实现不同程度领先，Mureka O1一经发布便以颠覆式的优势登顶行业SOTA。

《Mureka》AI音乐人MV全网首发，歌手：Mureka；该作品由AI生成，其中音乐由Mureka生成，视频由SkyReels技术支持生成。

“我们给它起名叫Mureka，是‘Eureka（我发现了）’的变体，我们希望它能打破过去的成规旧矩，实现更多人的表达自由。”在这场引发全球产业震动的发布会的数天前，昆仑万维董事长方汉面对来访的《财富》团队没有喊口号，也没有铺陈情绪，他只是平静地讲述这款模型的能力：具备音乐多模态理解能力、具备连贯旋律推理能力、具备强大的风格迁移与跨语言改编能力。这番语气平实的讲述，让人不禁感慨，这家成立于2008年的互联网企业，已经华丽完成了从游戏公司到AI产业创新引领者的深层跃迁。

昆仑万维董事长兼CEO方汉

很多人以为，那场关于音乐大模型的浪潮，是2024年才开始汹涌的。但在方汉的时间表上，故事的序章要写得更早些。“外界或许是今年才听见它的回响。”他说这句话的时候，语速不快，像是在回忆一段无人知晓的独白。“而这场演奏，我们早在2021年就已在音乐与算法之间探索。”那一年，AI还在大模型的原野上摸索前行，AI也尚未成为音乐的关键词。但昆仑万维已经开始布局，而这场博弈也不止音乐。

Mureka O1 重塑音乐工业革命

在AI音乐领域，过去主流的模型多属于“条件生成模型”，比如给定歌词生成旋律、给定旋律编配和声。这种模型虽然在短期内可以生成可听的段落，但其连贯性与情感建构始终停留在“拼接”层面，尽管能够生成高保真音频，但常常缺乏结构一致性和音乐性。

Mureka O1的最大突破，是首次将“思维链”（Chain of Thought）技术引入音乐生成系统，与之配套的还有技术全面升级的音乐基座模型Mureka V6。实现了“推理型音乐创作”。方汉介绍到：“让 AI 不再是简单的'即兴演奏者'，而具备'作曲家'的思考逻辑。” 昆仑万维自研的CoT提示技术MusiCoT不同于传统自回归式的“下一个token”预测逻辑，MusiCoT通过CLAP跨模态对比学习、残差矢量量化（RVQ）与双温度采样策略，使模型具备“先构思结构、再生成内容”的能力。换言之，AI先规划音乐的整体蓝图，再逐步填充细节，更符合人类作曲的认知过程。MusicoT还通过参考音频嵌入，支持风格迁移和灵感捕捉，进一步打通“从思考到表达”的链条。

Mureka V6进入界面，图中箭头所示位置（来源：Mureka官网）

更重要的是，Mureka O1极大简化了创作门槛。无论是业余爱好者还是专业音乐人，都可通过简单指令或上传参考歌，快速生成具备商业水准的音乐内容。并且，Mureka O1将完整歌曲的生成时间缩短至Suno的一半，在提升创作质量的同时，也实现了效率跃升。支撑其能力的Mureka V6模型支持十种语言歌词与歌曲创作，涵盖纯音乐、人声音色克隆等功能，并成为全球首批开放API的高质量音乐生成平台，以及首个支持模型微调的音乐生成平台，显著增强了商业化和个性化的可能性，这使得Mureka成为真正具备“交互性创作”的平台。

文化平权的奏鸣曲

在Mureka O1的技术参数之外，真正令它在业内引发全球级回响的，并不是音频生成的保真度、风格迁移的精度，甚至也不是那套推理链（Chain of Thought）式的创作路径——这些在今天的大模型语境中，终究会被跟上、被模仿、被超越。而是它在一次技术突破背后所携带的观念转向——一个被称为“文化平权”的理想主义命题，开始具象地落在现实的地平线上。

这个命题，并不是舆论附加给Mureka的想象，而是昆仑万维方汉在访谈中屡次提及、甚至可以说是以一种信仰式语调表达出的愿景。在他的叙述中，AI音乐模型并非是对专业音乐创作者的挑战者，而是“被主流体系长期忽略的、拥有表达欲望却缺乏表达工具者”的“翅膀”。在这个系统中，表达不再需要五线谱的训练，也不再需要掌握DAW（数字音频工作站）操作技巧。一个普通人，只需要能够把自己正在经历的情绪说出来，哪怕是“今天很忧伤”，Mureka就能生成一段旋律、一个节奏结构、一种听得出“味道”的音乐情境，并支持多轮修改与交互。实质上这是一次表达权力的解放。

这个理念之所以特别，在于它打破了长久以来文化创作背后的阶级结构——在古典时代，创作权力属于接受学院教育的精英；在工业时代，它归属唱片公司和明星制作人；在移动互联网时代，它被算法重新洗牌，流量决定了曝光。但无论哪一层，表达始终是“少数人的权力”。昆仑万维尝试让“表达”变得像写博客一样低门槛、像发朋友圈一样即时化。而这背后的核心，不是生成音乐或视频，而是生成“某人说不清却真切想表达的那点东西”。

这种变化，不只是技术使然，更是观念先行。方汉用“文化平权”定义它，强调的是“创作不该被血统和资源锁死”。这种语境下，AI不再是内容生产线上的机械臂，而更像是一种“分布式的表达助理”——不主导、不判断、不替代，而是补足人们原本因教育、资源、时间等原因所无法拥有的创作能力。“这其实跟手机和短视频的普及路径很像。”方汉说，“以前只有电视台记者或摄制组有摄像机，现在人人用手机拍视频。我们认为AI音乐也要走同样一条路。”

若将人类社会的创作权力结构放在长镜头下观察，每一次科技变革，实质上都伴随着“表达去中心化”的过程。而AI或许是下一步——让“不会的人也能创作”，让“不能的人也能表达”。当然，并不是每个人都需要成为音乐家，就像不是每个人都想成为导演。但在AI的辅助下，每个人都可以用音乐表达——这本身就是一种结构性的改变。

而Mureka选择“音乐”作为AI文化平权的切入口，既出于对技术演进节奏的合理判断（音频数据量远小于图像和文本，更适合中型企业率先攻坚），也因为音乐本身承载了更高密度的情绪表达、文化记忆和身份认同。在过去，音乐是社区认同的旗帜、语言的衍生物、社会表达的隐喻。正因如此，音乐成为AI大模型在文化意义上“突破防线”的首个高地——AI不仅要“会唱”，更要“唱对路子”和“唱出味道”。

Mureka的风格迁移能力，在方汉看来，不是一个音频处理技术，而是一种“跨文化表达的编码器”。“它不仅能理解流行和古典，还能识别不同语言、不同族群的情感表达方式。”他说，“我们训练它的目的，并不是让它模仿西方，而是让每一个地方、每一个母语，都能找到自己的旋律，写自己的‘纳西古乐’。”这在全球语境中尤为重要。今天的大模型大多起源于英语世界，训练语料偏向欧美，语言模型的文化倾向也常体现出一种“傲慢”的结构性偏见。而音乐，正如方汉所言：“一个尼日利亚的年轻人，用自己的语音输入、用自己的故事做成一段音乐，这种文化回响才真正有力量。”这不仅是对音乐工业的挑战，更是对AI世界秩序的一次反向叩问。

Mureka V6支持10种语言的AI音乐创作（来源：Mureka官网）

从工具到平台，从内容到渠道

如果说Mureka O1是在AI音乐赛道上掀起惊涛骇浪的一次标志性突破，那么它在昆仑万维AI战略图谱中，只是一个向外映射的锚点——一个打通内容生态、模型能力和商业闭环的前哨。真正值得深挖的，是支撑昆仑万维产品矩阵诞生的那套系统性工程：一条从“工具”起步，经“平台”演进，最终走向“生态”的完整战略路线图。

“工具优而渠道，这是我们反复验证的一条路径。”董事长方汉在对话中强调。他提到，昆仑万维并不是凭空突然转向AI的，而是有迹可循——从最早的游戏运营商，到移动互联网时代海外社交娱乐产品的先行者，再到2020年全面切入AIGC（生成式人工智能）赛道，其演进逻辑始终围绕着“赋能”和“连接”这两个关键词展开。

在AI的第一波浪潮中，大多数中国企业的关注点集中于模型参数、算力配置和硬件集成。昆仑万维则选择了另一条路径：从“AI+内容创作”入手，打造一整套低门槛、高自由度、强互动性的AIGC工具矩阵。他们并不急于在大模型之战中与OpenAI、百度、阿里巴巴争高下，而是另辟蹊径，在音乐、短剧、游戏、社交等多个垂类应用中，构建AI工具的“自有生态系统”。

这套系统的核心逻辑是：用AI解放创作力，并围绕不同维度的创作者需求，搭建起既能生成内容、又能协同传播的“创作-分发一体化平台”。

从音乐到视频，从文本到社交，昆仑万维的AI产品布局可谓多点开花。从AI短剧平台SkyReels到实时语音对话助手“Skyo”。“Skyo”便是尝试打造AI情感交互平台的试验田。这个平台基于对话大模型与情感识别技术，能够为用户提供具备“陪伴感”的虚拟社交体验——它既不是传统意义上的聊天机器人，也不同于单向输出的语音助手，而是试图通过场景构建、语境记忆和心理动态识别，为用户提供更具“人性尺度”的AI情感交互。

AI短剧平台SkyReels

“人是需要情感供给的，而AI刚好能以极低成本做到这一点。”方汉指出。“情感陪伴”看似轻盈，却是大模型落地最实际、最高频的场景之一，“AI陪伴不需要端到端生成视频，也不需要复杂图像处理，它主要在对话系统中运行。我们相信，在这类场景下，中国企业是最有可能走在前面的。”

更重要的是，昆仑万维所构想的AIGC战略，并不止步于“做好一个工具”或“占据一个赛道”。他们的目标，是通过这些看似分散的工具，构建起一个“内容即连接器”的平台架构——让AI创作成为用户、平台、开发者三方互动的中枢。AI工具负责生产力，平台负责协作与组织，渠道则最终承担起价值实现的角色。

在这一逻辑下，昆仑万维推出了一系列面向开发者的API开放平台和微调接口。使得不同地域、不同文化的用户都可以在本地语境下对模型进行“个性化适配”。不仅提高本地模型的效率，也为昆仑万维日后在全球市场“因地制宜”的渠道布局打下了基础。

值得注意的是，其早年间在StarMaker 、Opera等海外平台上的运营经验，使他们对于“工具如何转化为社区”“创作如何变成流量”“流量如何孵化生态”有极深的组织性理解。在这套系统的良性运转下，内容与交互的双重驱动会构建一个“AI原生的平台经济体”：用户在平台上使用AI工具创作内容，这些内容再通过平台进行分发、变现、迭代——最终实现从内容创作、价值交换到用户连接的闭环。这一点，也正是昆仑万维的领导层区别于一众AI企业家的地方。他们不沉溺于“AGI多快能实现”的哲学争辩，也不热衷于在算力战中咬牙拼杀。他们关注的，是如何通过可持续的商业机制，把技术变成能够让用户喜爱的产品。

Opera浏览器

因此，在昆仑万维的产品谱系中，我们很难用“技术”的维度去判断优劣。它更像是一个渐进式、场景化的智能基础设施平台：一个懂用户、懂变现、懂场景、也懂本地文化的玩家。方汉在讨论这场“博弈”时，显然有意回避那些过热的AI神话叙事，而更倾向于将这场革命描述为一场信息基础设施的再造过程。这种务实的产品主义与持续的技术演进结合，使得昆仑万维在当前的大模型时代显得独树一帜，但又很朴素。听起来不如“通用人工智能”那么梦幻，却可能是AI真正融入大众生活的现实路径。

潮头之上：中国AI的全球叙事之变

在昆仑万维这部AI时代的新剧本中，董事长兼CEO方汉是领唱者，他务实、精准、专业、冷静，是实现理想的桥梁。

在长周期的逻辑下，昆仑万维的AI战略始终强调“小而大美”。公司不做大而全的大模型竞争，而是切入有“社会连接性”的具体场景，在这个过程中，昆仑万维要走不同于“大厂”的差异化路径。用AI工具重构人们的日常表达方式。这正是天工AI助手、Mureka、SkyReels等AI产品背后的共同底层设想。

这种“小而大美”的思维方式，不仅适用于产品选择，更是整个组织的战略DNA。这也是为什么，在很多看似分散的业务线上，昆仑万维反而实现了“对齐”的奇迹：AI音乐平台Mureka看似是娱乐，其实是“表达权”的分发；AI视频生成平台SkyReels看似是内容工具，其实是对“创作门槛”的系统性压缩。正如昆仑万维的使命——“实现通用人工智能，让每个人更好地塑造和表达自我”一样，通过在基座大模型迭代、AI应用发展、商业化变现三大维度的发展，推动AI全球化布局。

在热议的AI大模型出海话题当下，多数中国企业仍在被两个问题所缠绕：一是如何将技术能力有效“翻译”为不同文化中的应用；二是在主导权高度集中于欧美大模型巨头的格局中，中国AI能否讲出自己的叙事。昆仑万维，是少数已然走上这条道路并形成自己语言体系的企业之一。

早在Mureka O1发布之前，这家公司就已经在全球构建了多模态的AI实验场。它不是“推着一款产品出海”，也不是“靠补贴换流量入口”，而是沿着“本地化-场景化-生态化”的逻辑，构建起了一套高度分布式、文化脱敏、技术可迁移的全球部署路径。

“我始终觉得，真正的AI公司，一定是全球化的。”坐在昆仑万维总部的会议室里，方汉并没有用“全球布局”这种被媒体反复消耗的字眼来描述昆仑万维的出海逻辑，而是用了更具结构性的表述：“我们从一开始，就不是为一个市场做产品。”

这句话听上去十分克制。但放到昆仑万维近几年的海外部署地图上去看，却别有深意：公司业务已经覆盖100多个国家，Opera浏览器在全球拥有3亿用户，StarMaker 在东南亚、欧洲、中东等地区已经成为主流K歌社交平台，AI短剧平台SkyReels也正在海外市场同步推进。

“很多人理解出海，是把国内做得不错的东西复制一份，换个皮肤丢到海外。这种方式我不反对，但它很容易死在文化细节上。”方汉的口吻没有火药味，甚至带着一丝技术人特有的冷静。他解释：“我们做AI，不是去‘教’别人怎么用工具，而是理解不同的人怎么用AI解决自己的表达问题。”

“我们是工具的提供者，更是文化结构重构的参与者。”方汉坦言，昆仑万维之所以在发展中国家投入，是出于一种底层逻辑上的判断：用AIGC工具，赋予那些原本缺乏舞台的人群以创作能力，在这背后，是对“文化平权”的强烈信念。过去，尼日利亚本土电影的平均制作成本仅为20万元，根本无法与好莱坞或中国的大片抗衡，甚至连合规的后期剪辑设备都难以找到。但当AI工具降低了音乐、视频、动画创作的门槛，20万元可以“生成”出像《哪吒之魔童降世》那样的作品水准——这不再只是技术迭代，而是一种国家层面的文化供给革命。就像过去手机视频拍摄普及，撬动了短视频浪潮的爆发一样，当创作门槛被降至“几分钱一首歌”的水平时，全球内容的生产逻辑就开始发生结构性逆转。

这也是为什么昆仑万维在全球落地的业务，不仅仅是产品推广，更是一种渠道重构。像Opera浏览器的“省流模式”、社交K歌平台StarMaker，背后都体现了一个逻辑：在最需要的地方建立最底层的工具生态，用最轻的方式撬动最强的创作能力。对比那些以资本优势为主导的大平台，昆仑万维的打法更像是在内容底层做“民间组织”式的播种。

而尼日利亚只是非洲地区的典型代表，同样的逻辑在内容领域也成立。“他们或许不会经历昂贵的传统音乐录音棚阶段，而是直接用AIGC作曲，用AI生成视频，跳过那些高门槛的工业时代。”

这些“广撒网”的布局，不是一场粗放的海外扩张，而是一次深度植根于“去中心化”逻辑的实践。方汉多次强调：“我们不押注于某一个国家的繁荣，我们押注的是文化权利的普世性。”这套逻辑也决定了昆仑万维的产品分层策略——入门工具永久免费、平台渠道永久免费、但专业工具才收费，成为让AI创作在不同社会阶层中真正“落地”的关键一步。“我们在发展中国家真的让人们的信息获取成本变得更低”。他说，信息平权，是文化平权的基础。“当每一个人都能获取、理解、表达的时候，这个世界就开始变得不一样了。”

当然，这一切也绕不开全球治理与文化敏感性的挑战。方汉没有回避。他提到，在海外各地推广工具时，公司内部的第一条规则就是“不得使用带有种族色彩的语言”，哪怕是内部对话中，也不许例外。“这不是政治正确，而是态度。”他强调，真正的本地化，是从尊重人开始的。昆仑万维目前在20多个国家设有办公室，大量的员工为外籍，很多本地员工参与到产品策划、合规审核甚至技术测试中。“我们不会把中国的一套标准直接压过去，我们让当地人参与规则的制定。”而这一点，也正是方汉对“全球化AI”最核心的判断之一：技术输出是早期阶段，文化协作才是终局。

正如方汉所说：“我们想做的，不是把中国的产品推向世界，而是让世界上的每一个人，都能通过AI去讲述他自己的故事。”

实现通用人工智能，让每个人更好地塑造和表达自我

站在技术爆点的边缘：中国AI如何推开下一扇门

过去一年，全球AI领域风起云涌。GPT-4 Turbo将上下文窗口拉升至128K，Sora开启多模态视频生成革命，Gemini、Claude、Mistral纷纷接力。每一次产品迭代，都是一次技术肌肉的对抗。而中国也不再缺席。百度、阿里巴巴、字节跳动相继追赶，参数、推理速度、推理成本都在接近全球第一梯队。DeepSeek、MiniMax、智谱AI等新兴力量也异军突起，国产大模型的工业能力基本完成了第一阶段的追平。

但在这场“计算力-算力-大模型”的军备竞赛背后，真正的问题正在浮现：我们追的到底是什么？又能跑向哪里？

“我们可能高估了AI的短期价值，但一定低估了它的长期颠覆。”方汉如是说。“它不是某个科学家在实验室大喊‘我发现了’，也不是某个企业突然投产爆红的瞬间，而是像水渗进岩石缝里那样，一点一点改变着我们的结构。”在方汉看来，AI真正的拐点，是人们突然意识到自己已经无法离开它，不知不觉中，它已经融入生活的每一个角落，从内容生成、产品设计、教育培训、情感陪伴，到文化生产和日常娱乐。

而中国AI正处在这个变革的“边缘地带”。这个“边缘”并非意味着落后，而是指处在全球AI生态的断裂带上，一方面拥有丰富的数据资源、工程师红利和快速迭代的商业环境，另一方面又面临着算力不足、算法壁垒、语言劣势等限制。在这样的现实张力中，一家中型科技企业要在AI浪潮中存活下来并快速发展，往往比一场“参数之战”更具挑战。

方汉对这种挑战并不悲观，反而将它看作一种独特的战略位置，他坚信中心化平台往往被路径依赖困住，而边缘者则有更大的灵活性与突破空间。它让企业拥有更高的试错空间，更快的反馈节奏，也更真实的用户需求。相较于那些在巨型参数模型中迷失方向的巨头，中型企业反而可以从C端的微小痛点出发，在文化、情绪、创作之间找到连接点。

这也是他坚信，中国企业要在AI全球竞争中找到自己的方式，靠的不是更大的GPU、更多的VC支持，而是对“人”的理解。正是基于这一逻辑，昆仑万维选择不是投入资源与巨头硬碰硬地追逐文本大模型的算力竞赛，而是在音乐、图像、短剧、社交等领域寻找“创意与工具结合”的缝隙市场。“信不信仰不重要，关键是要把东西做出来”方汉说，把产品开发落到实处，做出真正适合用户需求的产品，“最能理解用户需求的产品可以活到最后。”

他尤其强调，在AI即将全面进入“产品化阶段”的当下，最宝贵的能力是创造力。“AI的顶级作品，仍然要靠人来教。”不论是视频、音乐还是小说，创意始终是最不可替代的部分。而未来真正领先的AI企业，将不是掌握最多技术秘密的公司，而是最能激发创作者灵感、服务创作链条的平台。

或许，这正是中国AI在2025年这“跃迁之年”的真正答案：它不是要战胜谁，也不是要证实什么，而是要在巨大的不确定性中，用另一种路径、另一种节奏、另一种价值观，把未来拉得更近一点。

后记

在刻板印象中，北京的AI企业和互联网大厂大多偏爱海淀中关村——那里有清华、北大，有高频的融资对接、密集的创业资源和无数头戴工牌的“技术信徒”。

但昆仑万维却将总部安在东城区的西总布胡同，一条贯穿中国近代史，连接着北京人间烟火气与中央商务区，却从未与“技术爆点”划等号的街巷。它安静、迂回、低调，离故宫不远，却离互联网语境中熟悉的“高速”和“规模化”似乎更远。

这种“反直觉”的选址，也许恰恰预示着它在AI时代选择的路径。它所代表的，是中国AI企业在全球技术版图中某种“温和而坚定”的新叙事——不是凌厉的突破，不是喧嚣的爆款，而是以“创作者”“用户”“表达者”为中心，重写人与智能的协作关系。

一如这家公司在胡同深处的选址，如果说2025是AI“跃迁”的年份，那么在这灰砖绿瓦之间，昆仑万维所埋下的那枚名叫“未来”的种子，已经在春天里枝繁叶茂。

特刊 | 文中相关数据内容均来源于采访与公开信息资料，未经允许不得转载。

在财富Plus，网友们对这篇文章发表了许多有深度和思想的观点。一起来看看吧。也欢迎你加入我们，谈谈你的想法。今日其他热议话题：

查看《长和：未就全球电讯业务有关的任何交易作出决定》的精彩观点

查看《财政部出资5000亿元，四大银行融资方案公布》的精彩观点