在这个领域,GPU就是FPGA的弟弟

360影视 欧美动漫 2025-06-25 07:30 3

摘要:巧了~前两周我去看了一个专业视听领域的顶级展会infocomm,里面有各种超高画质超强性能的专业影像设备,给了我这个part-time自媒体博主一点小小的震撼。讲道理,从芯片的角度来看,这些对图形图像进行处理的应用应该是图形处理器GPU最擅长的领域,但万万没想

之前发了一期讲万能芯片FPGA的视频反响不错,很多人问我FPGA既然这么牛掰,它到底能干点啥、有啥具体应用呢?

巧了~前两周我去看了一个专业视听领域的顶级展会infocomm,里面有各种超高画质超强性能的专业影像设备,给了我这个part-time自媒体博主一点小小的震撼。讲道理,从芯片的角度来看,这些对图形图像进行处理的应用应该是图形处理器GPU最擅长的领域,但万万没想到,这些顶级音视频设备背后的主控芯片竟然绝大部分都是我们之前说的万能芯片——FPGA,真的把GPU的老家给端了。究其原因,离不开FPGA的三个核心优势。

那今天这篇文章,就和你分享一下这次在infocomm展会上看到的一些典型的FPGA应用,以及背后体现的FPGA的三个独特优势。

多说两句:这期内容的视频版在各个平台上发了,视频在文末,也获得很多专业人士的点赞+转发。不过有些留言上来就开喷,说我不懂FPGA……所以咱们还是要多发FPGA的内容,毕竟不懂要多学。

FPGA的第一个优势,就是很强的并行处理能力、以及其带来的超高性能。什么是并行处理呢?它其实是和串行处理是相对的概念。好多年前,流言终结者做了一个形象的比喻。我们画一幅画其实有两种方式,第一种是一个一个往画布上打点,最终画出来一个笑脸,这也叫串行处理;而另外一种方法则更加暴力,通过一次性喷出来N多个点,直接画出来一个蒙娜丽莎,效率的提升肉眼可见,这就是并行处理。

并行处理或者并行计算本身也是GPU的优势,不是FPGA专属;但两者的区别是,GPU只能以一个比较大的计算单元为基础做并行,而FPGA可以继续拆分,可以在更细粒度的逻辑单元级别做并行计算。

对于高清视频来说,要处理的数据量是巨大的。比如,8K视频单帧像素高达3300万,每秒60帧时数据量达20亿像素,需要对这么多像素做并行处理,CPU一条指令一条指令做肯定不行,GPU能多核渲染,但既没有这么多核、也很难做到像素级并行。

相比之下,FPGA可以将视频处理流程分解为多个阶段,每个阶段设计专门的硬件模块去处理。比如对于像素的颜色空间转换,把RGB888转成YUV420时,可以把每个像素的转换逻辑独立出来分别实现,FPGA就可同时并行的计算所有像素的Y、U、V分量,这样只需要几个时钟周期就能完成所有像素的转换。

这次展会上我看到来自诺瓦星云的MX2000Pro显示控制器(不是广告),它就是使用AMD的FPGA,实现了单台设备带载8K超大屏的能力,属于行业顶级了。这个东西有个很有意思的应用,就是像阿凡达这些电影大片拍摄中的虚拟拍摄技术。也就是不用斥巨资布景,也不用搞个绿幕让演员做无实物表演,而是在后面、地面、甚至天花板铺满8K高清大屏,从而直接在屏幕上展示戏里的场景,然后用摄像机怼着拍,所拍即所得。

诺瓦星云显示控制器,后面是一面墙的8K大屏

但为了实现这样的无缝体验,就需要控制这么多高清LED显示实现备频,插帧,以及240Hz+高帧频与帧频自适应技术,才能和电影摄影机实现快门的精确同步,避免摩尔纹和画面撕裂。这些功能都离不开FPGA的细粒度并行处理能力。根据展会上专家的介绍,不仅高清大屏的驱动用的是FPGA,连摄影机里用的也是FPGA,梦幻联动了属于是。

除了并行计算,FPGA还能通过集成一些定制化的硬件IP、高速接口、高速的片上存储等等很多方式去提升系统性能,文章篇幅有限就不一一展开介绍了,如果你对这些内容感兴趣的话就请一定点一下关注,这样我才知道原来有这么多人对这些技术感兴趣,我们的账号变得越来越大,才能让我带你看到更多这样有意思的展览,做出更多对你更有帮助的内容。

接着说FPGA的第二个独特优势,那就是超低延时处理。特别是现在的各种直播、线上会议,甚至是很多工业和医疗的视频应用,都需要极低甚至是无感的延时。比如经常下矿坑的观众都知道,我们需要实时观测矿井下面的情况,画质也不能拉胯,否则漏掉要命的细节就出大事了。对海量数据的超低延时处理,其实就是FPGA的独门绝技了。

FPGA之所以能实现超低延时,核心原因是它能用硬件直接实现特定的算法,绕过了传统CPU或者GPU的软件堆栈瓶颈,也就是不用经过操作系统的一系列进程调度、内存管理、中断响应等等环节。中间商少了,延时自然就低了。

还是拿前面说的颜色空间转换为例,在FPGA中只需要三个周期就能完成,如果每个周期是300MHz,那总延时就只不过10纳秒。相比之下,CPU和GPU都需要用到循环指令,虽然频率要高得多,但软件开销很大,总延时仍然需要1000纳秒,是FPGA的100倍。

FPGA不仅延时低,它还能保证确定性的延时,这个是被很多人忽视的隐藏版优点。由于FPGA上的电路结构是固定的,那么从输入到输出有多少个周期也是确定的;相比之下,CPU或者GPU由于有操作系统和线程调度,就会有各种不确定性,所以延时可能会来回抖动。

这种确定性的延时对于很多应用非常重要。比如在医疗领域的8K内窥镜视频处理这个应用里,FPGA从传感器输入到显示输出的总延时稳定在2ms以内,而GPU方案会因为线程调度波动而导致延时在5-20ms间抖动。事实上,这种确定性低延时的特点,也是帮助FPGA在高频交易中被广泛采用的主要原因,之前讲DeepSeek和幻方的文章里我们说过,链接在这里。

那在这次展会上,我就看到了来自保凌的基于AMD Zynq UltraScale+ MPSoC的云台摄像机(不是广告),自由度和可玩度很高,可以360度旋转、也能大角度俯仰和缩放。它的一个典型的应用就是放在各种专业的直播车上做赛事直播,并提供超低延时的视频处理。它还在FPGA上同时实现了视频编解码、AI推理与网络协议处理这一整套功能,让摄像机能智能跟踪拍摄主体,响应速度提升40%,还能把低分辨率的视频信号AI优化成4K画质,实现实时升频,这就很厉害了,相当是AI能力和专业音视频的很好结合,当然这些功能都是基于FPGA的硬件能力的驱动。

FPGA第三个独特优势,就是超强的灵活性,以及带来的极致差异化。特别是在专业音视频领域,有各种视频传输协议(HDMI、SDI、DP)、压缩编码标准(H.264/AVC、H.265/HEVC、AV1)、同步和控制协议,以及一些行业特定的标准等等。他们有些是行业规范和标准,而有些是公司自己定义的,而且随着技术演进,还不断有更多协议出现。比如现在5G网络的大背景下,就有AV over IP等等。

协议越来越多,对画质、无损率以及延时的要求肯定越来越高。但CPU或者GPU造好之后就很难在上面增加专门针对这些协议的硬件模块了,就只能用软件处理,性能肯定就拉胯。FPGA就不一样,它之所以叫「万能芯片」,就是可以通过改变自身的逻辑功能,来直接生成这些协议和标准的硬件处理模块。

比如我就看到一家叫美乐威的公司(不是广告),就自研了名叫Weehoo的浅压缩编解码技术,能在保证视觉无损的前提下,实现高达4K60fps 4:4:4 10bit的视频编解码,以及帧内延迟和低于500Mbps的码率。但这么高的指标,市面上是肯定没有相应的解码芯片或者硬件来实现的,用CPU或者GPU延时和性能都太低。所以他们就用了FPGA,设计了一整套硬件编解码电路,能运行在400MHz的频率,并实现了在千兆网上点对点17毫秒左右的延时,这么短的时间,人眼根本分辨不出来。

基于FPGA的美乐威视频盒子,实现超低延时+超高性能编解码

除了定制化和私有协议,用户也能在FPGA上同时实现那些公有协议和标准,实现所谓的「一机多模」,也就是一台机器,多种模式或模态。关键是最终的产品化形态还非常小,和我手掌差不多大,摸起来也并不烫手,说明功耗很低。这明显比用GPU显卡+转码芯片的方案性能更高、成本更低,也更加灵活。

FPGA的这种高度可定制性,就让不同的用户不是一味地去卷大算力,而是很有巧思的去找到自己的差异化路线,用更小的芯片,开发更有特点的产品,解决更有意思的问题。我感觉这才是FPGA最吸引人的地方。

其实在看展的过程中,我也给厂商提出了一些灵魂拷问、也是很多FPGA开发者一定会遇到的问题,比如FPGA的开发难度到底怎么样,做成产品之后的可靠性和质量到底如何。通过和各种专业人士的交流,他们告诉我其实现在FPGA的开发门槛相比之前已经降低了很多。虽然还是有需要硬件工程师写RTL的时候,但其实像AMD这样的FPGA厂商就已经提供了很多专业音视频相关的IP模块,甚至他们还有专门的解决方案团队,就是为音视频客户提供完整的解决方案。甚至有些开发者会直接用高层综合HLS的方法来进行FPGA算法的硬件开发了,高层综合这种方法特别适合开发专业音视频处理这种流式计算的算法,现在Vivado等工具的支持也不错,开发起来其实很方便,我的研究团队也在做相关的研究工作。

说到可靠性,这其实也是FPGA的优势。之前文章说过,FPGA的生命周期非常长,甚至可能达到十年之久,对于专业音视频设备动辄10年+的服役要求来说这个非常关键。有个参展商甚至说,FPGA更多是一次开发、终身可用,相当于「高门槛自由」;而GPU依赖持续算力升级,相当于「低门槛受限」。所以虽然GPU在AI领域大杀四方,但在专业音视频领域,他们仍然是坚定选择使用FPGA。

希望看完今天的文章能让你对FPGA的应用有了更新的认识。还想看关于FPGA的哪些内容,记得留言区告诉我。

来源:老石谈芯

相关推荐