新思科技×无问芯穹:Al for Chip, Chip for Al,AI与EDA的双向赋能

360影视 欧美动漫 2025-05-29 14:40 2

摘要:2025年5月23日,新思科技直播间邀请到清华大学电子工程系博士、博士后曾书霖(无问芯穹001号员工)、无问芯穹智能终端技术总监胡杨,以及新思科技战略生态拓展高级经理傅光弘、新思科技EDA生态解决方案资深专家孙路,围绕“AI与芯片双向驱动的智能时代引擎”展开深

2025年5月23日,新思科技直播间邀请到清华大学电子工程系博士、博士后曾书霖(无问芯穹001号员工)、无问芯穹智能终端技术总监胡杨,以及新思科技战略生态拓展高级经理傅光弘、新思科技EDA生态解决方案资深专家孙路,围绕“AI与芯片双向驱动的智能时代引擎”展开深度探讨。

圆桌实录

学术理想与商业落地

傅光弘:AI 作为当前科技领域的核心驱动力,正深刻重构各行业的发展范式。曾总在清华大学实验室长期从事软硬协同优化研究,请问在这一过程中,您观察到哪些关键市场机会,促使您创立无问芯穹并布局云端一体算力产业?

曾书霖:2017 年本科阶段,我在汪玉教授创办的深鉴科技参与了两年有余的 FPGA 团队软硬协同研发工作。深鉴科技被赛灵思收购的完整历程,让我系统性经历了创业企业从技术原型开发到商业化落地的全周期。

这一时期的AI 技术仍处于 1.0 阶段,典型落地场景包括安防、自动驾驶等,模型相对较小,硬件层面更多通过 GPU、ASIC、FPGA 实现性能优化。我们当时思考的一个关键问题是:一张 GPU 能否承载多个任务?从而提升资源利用率并降低成本。这催生了我们后来提出的“算力虚拟化”概念,即通过系统层调度和软硬协同,让大卡服务更多 workload。

随后我回到清华,在汪教授课题组开展 AI 加速器方向的博士研究,继续探索软硬协同在大规模计算场景中的潜力。我们实验室还搭建了一个业界广为使用的 AI 加速器能效对比平台,系统性整理了数百款 CPU、GPU、FPGA、ASIC 的算力与功耗表现。在这个平台上我们发现,主流芯片方案在十年间逐渐从低能效区间向高能效区间演进,业界普遍使用“每瓦算力”作为评价标准。

孙路:从芯片设计的角度出发,您刚才提到算力与功耗的对比,能否分享一下你们如何具体评估不同硬件平台的“能效比”?在大模型场景下,是否也有相应的评价指标?

曾书霖:这是一个非常关键的问题。我们对不同芯片的“算力/功耗”进行了定量统计,用图表方式直观地呈现每种方案的能效轨迹。例如 GPU 一般位于高功耗高算力区域,ASIC 则偏向低功耗高效能区。从 2014 年到现在,整体趋势是朝着左上角移动,即能效逐年提升。

在大模型时代,由于 Transformer 成为统一建模结构,行业逐步转向以 token 为单位进行能效评估。现在主流标准已从 FLOPS 演化为 token/s(吞吐)和 token/J(每焦能效)。这反映出一个核心趋势:如何在有限的能量预算下,释放最大限度的智能水平。

曾书霖:特别是在 2022 年底 ChatGPT 爆发后,引发了我们更深的反思:这么多年我们在做软硬协同优化,现在是否正是它被放大价值的时刻?我们意识到,大模型时代真正的“壁垒”不再只是算法或参数量,而是“能不能以可负担的成本去训练和部署”。

2022 年 ChatGPT 引发的大模型技术革命,暴露了行业算力成本高企的核心痛点──中小企业及科研机构难以负担大规模模型训练与推理的算力成本。基于此,我们希望将清华实验室积累的软硬协同技术进行产业化转化,通过降低算力准入门槛、提升异构计算能效,这正是无问芯穹的创立初衷。

傅光弘:胡总拥有英特尔边缘计算研发及创业公司 CTO 经历,在加入无问芯穹时,您如何判断 AI 领域的市场机遇?未来无问芯穹在 AI 产业中将如何定位?

胡杨:从个人职业轨迹看,我长期深耕终端技术领域,涵盖无人机边缘计算解决方案、工业物联网等场景。随着 AI 技术的爆发及其产业化价值的提升,若要探索前沿技术,需选择以大模型为底层技术架构的平台型企业,以把握 AI 2.0 时代的核心机遇,而非局限于追逐短期技术热点。清华校友的技术理念共鸣,成为我加入的重要契机。

在英伟达凭借 GPU+CUDA 算力生态主导 AI 2.0 标准的行业格局下,无问芯穹聚焦产业中游,通过跨平台算子优化与模型量化技术构建通用推理引擎。这一定位旨在弥合非 CUDA 生态厂商的技术能力断层,同时以标准化方案提升全行业推理效能,实现 “向上托举产业应用、向下兼容多元生态” 的双重价值,推动行业整体技术能力的提升。

曾书霖:具体而言,无问芯穹的技术路径可概括为 “云端 - 终端算力枢纽优化”──在云端构建异构芯片互联的算力融合平台,实现数据中心多元算力的协同调度;在终端针对小型化设备特性,从应用层、模型层到软件 / 硬件层进行跨层迭代优化,致力于捕捉下一个终端大模型的爆发性场景(如 “端侧智能设备的颠覆性创新时刻”)。

AI for Chip:重构芯片设计生产力

傅光弘:新思科技作为深耕中国市场 30 年的 EDA 领军企业,在 AI 技术浪潮下推出了全球首个 AI 驱动 EDA 套件 Synopsys.ai。请孙老师介绍该套件如何赋能芯片设计工程师?

孙路:芯片设计的核心是在复杂参数空间中实现最优解的搜索,传统方法依赖工程师经验进行多轮试错,效率受限。AI 技术通过大数据分析与算法建模,可显著提升这一过程的自动化水平。

新思科技于 2021 年率先推出 DSO.AI 工具,聚焦设计空间优化(Design Space Optimization),随后延伸出 VSO.AI(验证优化)、ASO.AI(模拟电路优化)、TSO.AI(测试优化)等模块,并于 2022-2023 年整合为 Synopsys.ai 套件。

Synopsys.ai 融合微软训练出的 Copilot 技术构建 AI 助手,可基于新思内部积累的工程数据训练模型,自动生成多类型设计匹配方案。其核心优势在于:

代码质量可靠性:依托企业级数据训练,确保生成代码符合工程规范;

跨领域知识融合:集成多专业设计规则,提升复杂场景下的设计效率。

作为覆盖架构探索─设计实现─制造验证全流程的 AI 驱动解决方案,Synopsys.ai 通过以下能力重构生产力:

数字化设计空间优化:基于 AI 算法快速收敛功耗 / 性能 / 面积(PPA)目标,提升开发效率;

模拟设计自动化:支持跨工艺节点的设计迁移,缩短模拟电路开发周期;

智能验证与测试:加速验证覆盖率收敛,自动生成优化测试模式,提升缺陷检测效率;

制造良率优化:通过 AI 建模加速光刻工艺开发,提升芯片量产良率。

傅光弘:无问芯穹在算力平台中整合多元品牌芯片并进行 AI 优化,这类技术路径将为行业带来哪些变革?

曾书霖:无问芯穹的核心目标是实现算力资源普惠化(算力平权)──通过兼容英伟达及其他厂商的算力芯片,打破生态壁垒,扩大行业可用算力池。我们通过 AI 技术在大模型训练 / 推理的性能、成本、兼容性之间寻找最优平衡点,结合软硬协同与多元异构计算能力,以更低门槛为企业提供适配其需求的大模型解决方案。

傅光弘:不同芯片架构的算子迁移需重新适配,无问芯穹如何提升这一过程的效率?

曾书霖:CUDA 生态的竞争力源于其覆盖千万级算子的开源迭代体系,而大模型通过 Transformer 架构将多元任务统一为 Token 序列处理,颠覆了 AI 1.0 时代 “一场景一适配” 的模式。当前仅需针对 Transformer 核心算子(约 20 个)进行优化,并结合芯片编程接口调优,部分优化经验可跨架构复用。

未来我们计划引入大模型的智能体(Agent)能力,借鉴 EDA 自动化优化思路,构建算子迁移的智能适配框架,通过模型自主学习降低多芯片适配的人力成本。

傅光弘:AI 技术在压缩设计周期的同时,对芯片设计提出了更高要求。如何实现更高效的芯片设计?

孙路:当前芯片设计面临 “PPA 优化鸿沟”──理论最优解与工程实现间存在显著差距,尤其在物理布局阶段,百万级模块的全局优化受限于算法复杂度与算力瓶颈。传统 EDA 工具可快速输出次优解,但难以突破理论上限。

谷歌与英伟达分别探索了数据驱动(强化学习建模布局问题)与算力驱动(GPU 暴力枚举)路径:前者需数十块 GPU 耗时数日训练,成本高昂;后者依赖海量算力,资源消耗显著。两者的产业化可行性仍需验证,核心矛盾在于工程效率与极致性能的权衡──如何在现有约束下通过场景化优先级设定,建立新的优化平衡点,仍是行业待解难题。

曾书霖:现有设计工具多基于经验规则实现快速经济解,但人类工程师的知识边界限制了创新空间。大模型作为智能体(Agent)可模拟科研过程,通过数学建模探索更高理论上限。例如,将 EDA 问题抽象为数学优化任务,大模型可通过学习现有解法,自主发现新理论范式,降低问题复杂度。这种 “工具调用 + 自主探索” 的路径 ,可能开辟芯片设计的新维度。

Chip for AI:算力革命的底层引擎

傅光弘:FlightVGM抹平了英伟达GPU 21倍的算力差距,未来无问芯穹在AI芯片的优化方向是什么,又如何进一步的降低大模型的推理以及部署的成本?

曾书霖:FlightVGM是无问芯穹和清华大学、上海交通大学联合的研究工作,主要通过软硬协同理念,尝试在有限的资源下去提升算力。

FPGA因为架构的问题与GPU的差距越来越大,于是我们通过从模型到软件到硬件这种跨层的协同优化,使得FPGA平台的算力达到了几十倍的能效提升。未来,我们还会坚定的使用软硬协同思想去设计芯片和AI系统。

另外,要想达到目标,还需要对应用场景足够理解,才好去对模型或者是对底层的一些架构做一些针对性的设计,因此这个工作也算是我们一个产学研的合作范例。

未来,我觉得一个大的趋势是如何结合这种新的模型架构与异构GPU,然后通过计算通讯的优化,达到整体推理成本的降低。

在芯片层面,在边缘端的场景,较低功耗与普通性能基本够用,所以低功耗低成本但是能满足应用需求也是一个不错的路径。

傅光弘:国内小而分散的算力较多,无问芯穹是否有考虑将这些算力整合在一起,为大模型或应用公司提供训练或推理的算力服务?

胡杨:无问芯穹在算力产业链中可以比喻成做纳管服务,即将客户的GPU汇集成一个算力池,之后我们做算力资源的分割与调配,这个池子的GPU和地点都可以是分布式的,然后统一运营。所以,国内的小的分散的算力都可以加入到无问芯穹的算力池中。

曾书霖:客户的关注点主要在于性价比与算力的稳定性,无问芯穹在保证性价比足够高的同时也通过一些软件上的容错优化,来保证训练过程中单点的失效不会对整个任务产生比较大的影响。另外,我认为EDA的关键是如何将不同的数据汇聚到一起,然后迭代一个统一的模型,这个模型再反过来又能加速各个芯片的自身的匹配的优化。所以,无问芯穹完全可以满足中小算力企业或者大模型公司的算力要求。

直播间互动

傅光弘:AI 芯片的软硬件协同优化,其核心关键点和瓶颈分别体现在哪些方面?

曾书霖:软硬件协同的核心在于跨层系统优化的目标一致性。这一过程本质上是复杂的优化问题──无论是芯片设计还是算法开发,均需围绕明确的性能指标(如功耗、延迟、面积)进行资源调度。以通用型 AI 芯片(如 GPGPU)为例,设计需在维持架构通用性的同时,通过精简非必要功能提升效率。

当前的瓶颈集中于目标指标的权衡取舍:若未来大模型统一为 Transformer 架构,硬件架构需针对其计算特性进行定向优化,剥离冗余模块以实现性能突破,但这会牺牲通用性。此时,设计的核心矛盾转化为对优先级的判断──例如,边缘设备更注重低功耗,数据中心则侧重算力密度。

此外,人类认知与工具能力的局限性也是关键挑战。现有 EDA 工具难以在复杂设计空间中找到全局最优解,需依赖工程师对应用场景的深刻理解,通过优先级排序引导工具迭代。未来智能化 EDA 工具(如 Synopsys.ai)将辅助加速这一过程,但场景化需求的精准捕捉仍是核心前提。

孙路:我们在服务用户的过程中发现,不同的芯片项目对设计目标的侧重点不一样。比如,大型芯片项目通常最关注的是性能,其次才是功耗和面积。但对于小芯片来说,面积受限、量产需求高、成本敏感,所以并不会对性能要求特别苛刻。

这也意味着我们的EDA软件必须是通用平台,既要服务高端芯片设计,也要满足小型芯片的成本效率需求。我们的 DSO.AI 和 ASO.AI 工具正是为此而生,它们可以帮助用户设定多个优化目标,并在所谓的“帕累托边界”上找到一个最合适的、综合表现最优的解决方案。

相比之下,很多人类工程师在做设计优化时,往往只盯着一个极限指标,比如只追求最高性能,而忽略了其他因素的平衡。但真正好的多目标优化结果,可能并不在单一维度的极限点上,而是在多个维度取得平衡的边界点。这正是AI能帮助我们做到、而人类工程师难以系统处理的关键所在。

傅光弘:边缘端与终端的 AI 芯片架构,与云端数据中心相比存在哪些差异?生态协同的路径如何?

胡杨:边缘端与终端的芯片架构因场景需求不同呈现显著分化:

边缘计算架构:聚焦工厂、医院等场景,需支持多用户并发访问与数据本地化处理,其架构与云端相似,但更注重私域网络兼容性。设计需围绕并发量、模型规模、本地数据交互等因素,构建接近云端的算力调度与网络拓扑。

终端设备架构:以智能终端为代表,核心需求为隐私保护与实时响应,需在有限算力资源下实现大模型轻量化部署。此时需牺牲部分模型规模,换取低延迟与数据安全性的平衡。

生态协同方面,尽管模型架构趋同(如均基于 Transformer),但边缘侧与终端的开发逻辑差异显著:前者偏向云化设计(关注算力池调度与并发性能),后者侧重场景化适配(如模型轻量化、本地化知识库集成)。两者的协同需通过标准化接口协议与跨平台模型压缩技术实现,例如通过统一的算子优化框架,兼容不同算力节点的部署需求。

傅光弘:现在很多大芯片都采用了Chiplet的设计方案,在Chiplet设计方案中有哪些是AI可以帮助设计者做的?

孙路:Chiplet 与 3D 集成技术的普及,使芯片设计复杂度呈指数级增长,人类工程师难以全局优化百万级模块的 2D 布局与 3D 堆叠方案。传统试错法在海量设计空间中效率低下,而 AI 可通过大数据建模与预测分析,在设计初期验证不同堆叠方案的可行性。

新思科技倡导的 “设计前移(Shift-Left)” 理念在此类场景中尤为重要──AI 工具(如 DSO.AI、VSO.AI)可在架构探索阶段,通过机器学习预测 PPA(性能 / 功耗 / 面积)表现,提前识别高风险设计路径。例如,在 3D 堆叠方案锁定前,AI 可模拟不同模块互联的信号完整性、热分布等关键指标,避免后期工程阶段的颠覆性调整(通常需数月迭代成本)。

本质上,AI 通过压缩设计空间的搜索维度,在算力与算法的双重支撑下,实现 “早期验证─快速迭代─精准收敛” 的设计闭环,推动 Chiplet 技术从概念走向工程化落地。

傅光弘:在芯片设计验证领域,高精度AI需要大量高质量训练数据,但EDA行业面临数据封闭的挑战——企业不愿共享设计数据,而缺乏足够数据又难以训练有效模型,这个问题应该如何面对呢?

孙路 :刚才曾总也提到了怎么去生成高质量的数据,其实就是非常好的一个来源,就相当于说我们自己写代码自己测试,还不错的丢到库数据库里去,不断的自己去写,而不是去收集现在仅存的这些代码,但是而且每家代码都是不一样的,都是自己保存的,我自己去生成,实际上我想起想起我刚毕业的时候,我在做软件开发的时候,其实就有这样子的,我们会做很多软件测试,你新写的一个方程,你需要很大量的测试集去对它进行测试,其实我们在做这些测试的时候,很多时候都是用的是自动生成的,自动生成的比如说计算器多加一个多加几位怎么样,它自动去生成无数的case,然后去跑去,但是这样的生成其实并没有代表并没有进行专门的测试目的,它只是在堆一个量而已,还是跟我们现在想要的结果差很多。

对话嘉宾介绍

傅光弘,本次圆桌对话主持人,毕业于加州大学伯克利分校计算机专业,现任新思科技战略生态拓展高级经理,全面负责新思科技在人工智能(AI)和高性能计算(HPC)领域的业务拓展、战略投资及生态建设。

曾书霖,清华大学电子工程系博士、博士后,任徐汇区工商联青年创业商会模速空间分会会长,主要从事软硬协同优化研究和AI加速器设计,发表高水平国际会议/期刊论文18篇,作为无问芯穹001号员工,带领团队实现全球首个大模型推理LPU IP,首次在单卡FPGA上实现7B大模型端到端推理。

胡杨,清华大学电子工程系本科,康奈尔大学计算机科学研究生,任上海无问芯穹智能科技有限公司智能终端技术总监,曾长期就职于英特尔亚太研发边缘计算解决方案部门,亦有无人机创业企业CTO经历,在端侧智能领域有丰富的技术与产品经验积累。

孙路,毕业于国防科技大学计算机学院微电子与固态电路设计专业,现任新思科技EDA生态解决方案资深产品专家。深耕EDA与集成电路领域14 年,完整经历从EDA工具开发、芯片设计技术支持到ASIC设计服务等全产业链环节。累计撰写逾百篇专业技术科普文章,并依托个人微信公众号「未来妄想家」独家连载《硅图 | EDA商业发展史》深度专栏,系统性梳理全球EDA产业演进脉络。

来源:芯榜一点号

相关推荐