【转】上海兆芯、最大8核支持DDR4的x86兼容CPU“ZX-D” ~性能媲美Intel和AMD的主流产品原文附翻译

摘要:上海兆芯集成電路有限公司は17日(現地時間)、新世代のx86互換CPU「ZX-D」シリーズがテープアウトしたと発表した。 上海兆芯はVIAやCentaur Technologyの流れを汲むx86互換CPUを開発している中国企業。ZX-Dのテープアウトについて、

上海兆芯、最大8コアでDDR4をサポートしたx86互換CPU「ZX-D」 ~IntelやAMDのメインストリームに匹敵する性能

劉 尭 2017年3月21日 06:00

上海兆芯集成電路有限公司は17日(現地時間)、新世代のx86互換CPU「ZX-D」シリーズがテープアウトしたと発表した。 上海兆芯はVIAやCentaur Technologyの流れを汲むx86互換CPUを開発している中国企業。ZX-Dのテープアウトについて、同社の傅城副社長が中国で開かれた半導体に関する国際会議「Semicon China 2017」で発表した。 ZX-Dは現在同社が展開している8コアCPU「ZX-C」シリーズの後継モデル。アーキテクチャを一新したとされており、中国国内で開発されたCPUとしては初めてDDR4をサポートするほか、DDR4メモリコントローラとビデオ機能を1チップに集約。性能面では現在のメインストリームのIntelやAMD製プロセッサに匹敵するという。 このほか、4MBのキャッシュメモリの内蔵、64bit命令のサポート、SSE4.2/AVX/AVX2命令の対応、CPU仮想化技術、および中国が策定した暗号化技術「SM3」および「SMS4」のサポートが謳われている。コア数は4コアまたは8コア。

中国・兆芯のx86互換8コアSoC「開先KX-5000」の全貌

劉 尭 2018年1月31日 12:22

KX-5000シリーズ発表会の模様(公式写真より)。これに写っているダイが唯一のダイ写真とみられる 上海兆芯集成電路有限公司は2017年12月28日に発表会を開き、最新のx86互換SoC「開先KX-5000」シリーズを正式発表した。発表後、兆芯に対して発表会の資料を要請したのだがなかなか届かず、1月後半になってようやく同社サイト上でその模様が公開された。本記事ではサイト上で公開された情報をもとに、KX-5000シリーズの全容をお伝えする。

旧世代からIPCを25%向上

KX-5000シリーズ 発表会では、エンジニアの王惟林氏がKX-5000シリーズを解説した。開先KX-5000シリーズは11月9日にテープアウトが発表されたが、今回の正式発表ではSKUも明らかとなった。スライドよれば、KX-5640、KX-5540、KX-U5680、KX-U5580、KX-U5580Mの5モデルの存在する。 また、サーバー向けに、最大対応メモリ容量を128GBに拡大し、ECCやRegistered DIMMをサポートする一方で、GPUを省いた「開勝KH-20000」の存在も明らかにされ、「KH-26800」と「KH-25800」の2つの型番のものが用意されることが明らかとなった。 同社の製品情報によると、各モデルの仕様は下記のとおりとなっている。共通で言えることは、いずれも動作クロックが2GHz留まりであり、高クロックで性能を追求した製品ではないことだ。KH-20000シリーズの掲載は省いているが、基本的にKH-26800はKX-U5680、KH-25800はKX-U5580からGPUを省き、上記のメモリ周りの機能を追加した製品である。

モデル

KX-U5680

KX-U5580

KX-U5580M

KX-5640

KX-5540

プロセスルール

28nm

パッケージ

HFCBGA 37.5×37.5mm

クロック

2GHz

1.8GHz

1.8GHz以下

2GHz

1.8GHz

コア数

8

4

Adaptive Overcloking

なし

あり

なし

共有L2キャッシュ

4MB×2

4MB

対応命令

x86/x64/SSE 4.2/AVX/TXT/NXbit

暗号化

ACE/SHA-1/SHA-256/SM3/SM4/乱数発生

バス

FSB

APIC対応

あり

温度保護

対応

C-States(C1-C4)

対応

P-State

対応

GPU対応API

DirectX 11.1

ハードウェアデコード

対応

最大解像度

4K

最大ディスプレイ出力

3基

いずれもCPUコアを内包したSoCであり、CPUのほかにGPUやPCI Expressバス、DDR4対応メモリコントローラを内蔵している。PCI Expressは3.0対応で、最多で24チャネルに対応し、最大で9スロット供給できる。 ただし、内蔵されているGPUについてはまだまだ謎が多い。DirectX 11.1対応と4K出力以外の特徴はわかっておらず、アーキテクチャなども非公開だ。兆芯はVIAから技術ライセンスの提供を受けてCPUを開発しているため、GPUに関してはS3 Graphicsの流れを汲む可能性もあるが、はっきりとしたことは言えない。 いわゆるサウスブリッジとして、新たに「ZX-200」を用意している。SoCとはPCI Express 3.0 x4で接続。9チャネルのPCI Express 2.0バスを備えるほか、2ポートのUSB 3.1(Type-C対応)、3ポートのUSB 3.0、そして6ポートUSB 2.0を備える。チップセットとしてのUSB 3.1へのネイティブ対応はAMD X370/B350チップセットに続くもので、Intelより先行している。また、4基のSATA 6Gbpsも備える。

KX-5000シリーズのSKUとおもな特徴

KH-20000シリーズのSKUとおもな特徴

コンパニオンチップセットとなるZX-200。ネイティブでUSB 3.1(Gen2)をサポートする

ZX-200のチップ

Core i3-6100相当の性能を謳う KX-5000シリーズのマイクロアーキテクチャの開発コードネームは「WuDaoKou」である。2013年8月より開発がスタートし、アーキテクチャを新規設計。パイプライン、メモリアクセスのバンド幅、分岐予測、投機実行などの機構を再設計または大幅な改善を施し、IPCは従来製品(ZX-C)から25%向上した。加えて、多コア化により1チップあたりの性能は140%、DDR4のサポートによりメモリバンド幅は120%向上した。 中国国内の第三者機関による、KX-5000の8コアモデルのベンチマークでは、メモリバンド幅はSTREAM 1C COPYが12GB/s、STREAM 8C COPYが17GB/s、SPECint2006のスコアは19.9、SPECint_rate2006のスコアは115だった。また、中国の大手PC専門メディア「微型計算機」によるテストでは、FrizChessのスコアは7,911、7-zipの総合スコアは12,112MIPS、CINEBENCH R11.5のCPUレンダリングスコアは4.01ptsであり、これはCore i3-6100に相当する性能だという。 ただ今回提示されたベンチマークはいずれもマルチスレッドに特化したものである。KX-5000が8コアであることを踏まえると、1コアあたりの性能は2コア/4スレッドのCore i3-6100と比較してかなり低いと言わざる得ない。 ただ、従来のZX-C+は4コアネイティブ設計であり、8コアのSKUは4コアのダイを1つのパッケージに封入した方式を採用していた。ダイ間のキャッシュのコヒーレンシはマザーボード上のノースブリッジを経由する必要があったため、レイテンシが問題となっていた。KX-5000シリーズは1チップに集約され、コア間のコヒーレンシはポイントツーポイントのクロスバースイッチとなったため、レイテンシが削減している。

WuDaoKouアーキテクチャ。IPCが25%向上している

第三者機関によるベンチマーク結果

大手メディア「微型計算機」によるベンチマーク結果も紹介された

チックタックビジネスモデルで今後はKX-6000とKX-7000も 発表会では、KX-5000シリーズの開発過程も公開された。開発は2013年8月よりスタートし、2014年6月にアーキテクチャの設計が完成、2015年7月に基本設計が完成したという。その後、2016年4月にハードウェアの設計を完成させ、2016年8月に露光用のマスクをテープアウト。2016年10月に動作検証を行ない、2017年10月に量産開始した。 開発は累計9,000カ月にもおよぶ開発時間を費やした。4,000個の計算コアが使用され、開発データは200TBにもおよぶ。また、10台のハードウェアエミュレータおよび検証プラットフォームが投入され、1,500億にのぼる命令の組み合わせをエミュレーション、300種類を超えるソフトウェアのテストなどが行なわれ、CPU、GPU、メモリコントローラ、PCI Expressバスに対して包括的な性能/機能/信頼性/エージングテストが実施された。 また、Windows Hardware Quality Labs(WHQL)の認証も取得しており、Windows 7/10/10神州網信政府版、中科方徳、中標麒麟、普華といったOSのサポートも実現した。 現在、兆芯はIntelが(かつて)採用しているチックタックモデルでCPUを開発しており、次期の「LuJiaZui」こと「KX-6000」シリーズは16nmへのシュリンクを行ない、動作クロックを3GHzまで引き上げる。さらにその次期となる「KX-7000」でマイクロアーキテクチャを刷新し、DDR5メモリやPCI Express 4.0への対応を果たすとしている。 ちなみに、同社の開発コードネームは中国の地名に由来する。ZX-CおよびZX-C+世代は「ZhangJiang」(張江)と呼ばれるが、これは上海の浦東新区にあるハイテクパークの名称で、兆芯本社のすぐ近くだ。KX-5000世代のWuDaoKou(五道口)は北京市海淀区にあるに駅の名前で、いわば中国の秋葉原こと“中関村”近辺。KX-6000世代のLuJiaZui(陸家嘴)はまた上海の浦東新区に戻り、浦東でもっとも栄えている地域だ。

KX-5000シリーズの開発の歴史

命令エミュレータや各種テストをクリア

チックタックの開発モデル

中国産x86 CPUと中国産OSの難しさ 発表会では、中国国内でCPUやOSを独自開発する難しさも指摘された。中国でCPU開発がスタートしたのは比較的最近のことであり、世界で活躍するIntelやARMと比較して設計能力が不足している。 また、IntelはすでにCPUを開発するノウハウが蓄積されており、MicrosoftといったOS開発メーカー、DellやHPといったPCメーカーと良質なエコシステムを築いているが、中国国内はその状況までほど遠い。 とくに、CPUの開発コストの高さについても指摘されている。Armに関してはIP設計とライセンスがメインで、半導体は製造していないため比較的低コストで開発できる。直近5年のCPU開発への投資は毎年平均で約2億4,380万ポンド(約375億円)だ。Intelの研究開発費は平均で毎年約114億ドル(約1兆2,435億円)、AMDはその10分の1の規模となっている。IBMとAppleはIntelとAMDのあいだの中規模で、Huawei傘下のHiSiliconもCPU開発の投資を拡大しており、いまやIntelに匹敵する規模となっていることが紹介された。 一方でアーキテクチャ別の開発研究費を見ると、x86は1つのアーキテクチャを設計するのにおおむね30億ドルかかっており、ArmやPowerアーキテクチャと比較して高いことがわかっている。もっとも、兆芯自らの研究開発費は発表会で語られていないため、規模は不明だが、30億ドル規模の投資がないとx86 CPUの開発は難しい、ということだ。 OSの開発については、純粋に人材不足と資金不足を挙げた。Microsoftは10万人規模の社員を抱えているが、中国のOS開発会社は大規模なところでも300~500人規模。ハードウェア製造メーカーとのエコシステムも構築されておらず、資金も不足している。Windows Vistaの開発費用は200億ドル規模で、アポロ計画に匹敵するレベルなのだが、中国国内でそこまで大規模な資金を研究開発に費やせるOS開発企業はなく、依然として開発レベルに差が存在するとした。

CPU開発の難しさ。資金や技術面で米国/英国企業に遅れを取っている

CPUの開発コスト。設計コスト、製造コスト、テストのコストなど

他社の研究開発費。Armの単位は億ポンド、Intel/AMD/IBM/Appleの単位は億ドル、Huaweiの単位は億人民元だ

アーキテクチャごとの開発費用。x86はおおむね30~70億ドルかかり、PowerやArmと比較して高い

OS開発も資金と人材不足が指摘されている

ハードウェアメーカーとのエコシステムもWindowsやMacと比較して小規模だ

Windows Vistaの研究開発費はアポロ計画並み

OSごとの研究開発費

附DEEPL翻译:

上海兆芯、最大8核支持DDR4的x86兼容CPU“ZX-D” ~性能媲美Intel和AMD的主流产品 刘尧 2017年3月21日 06:00

上海兆芯集成电路有限公司于17日(当地时间)宣布,新一代x86兼容CPU“ZX-D”系列已完成流片。 上海兆芯是汲取VIA和Centaur Technology技术的中国企业,致力于开发x86兼容CPU。关于ZX-D的流片情况,该公司副总裁傅城在中国举行的半导体国际会议“Semicon China 2017”上进行了发布。

ZX-D是该公司目前推出的8核CPU“ZX-C”系列的继任型号。该架构经过全面更新,是中国国内开发的CPU中首个支持DDR4的产品,并将DDR4内存控制器和视频功能集成在一颗芯片上。在性能方面,ZX-D与当前主流的Intel和AMD处理器相当。 此外,ZX-D还内置4MB缓存,支持64位指令,兼容SSE4.2/AVX/AVX2指令,具备CPU虚拟化技术,并支持中国制定的加密技术“SM3”和“SM4”。核心数为4核或8核。

中国兆芯的x86兼容8核SoC“开先KX-5000”的全貌 刘尧 2018年1月31日 12:22

上海兆芯集成电路有限公司于2017年12月28日召开发布会,正式发布最新的x86兼容SoC“开先KX-5000”系列。发布后,兆芯对发布会资料的请求迟迟未能收到,直到1月下旬才在其网站上公开了相关信息。本文将基于网站上发布的信息,介绍KX-5000系列的全貌。 旧世代IPC提升25%

KX-5000系列 发布会上,工程师王惟林对KX-5000系列进行了详细解读。开先KX-5000系列于11月9日宣布流片,此次正式发布也揭示了SKU信息。根据幻灯片,存在KX-5640、KX-5540、KX-U5680、KX-U5580、KX-U5580M五个型号。

此外,为服务器提供的产品最大支持内存容量扩展至128GB,并支持ECC和RECC DIMM,同时还揭示了省去GPU的“开胜KH-20000”,并准备了“KH-26800”和“KH-25800”两个型号。

根据该公司的产品信息,各型号的规格如下。共同点是,所有型号的工作频率均为2GHz,并非追求高频率性能的产品。KH-20000系列未列出,但基本上KH-26800是KX-U5680,KH-25800是KX-U5580去掉GPU后,增加上述内存相关功能的产品。

这都是内含CPU核心的SoC,除了CPU外,还内置了GPU、PCI Express总线和DDR4支持的内存控制器。PCI Express支持3.0,最多可支持24通道,最大可提供9个插槽。 不过,内置的GPU仍有很多未知之处。除了支持DirectX 11.1和4K输出外,其他特性尚不清楚,架构等信息也未公开。兆芯因从VIA获得技术许可而开发CPU,因此在GPU方面可能延续S3 Graphics的技术路线,但具体情况尚不明确。 作为所谓的南桥,新增了“ZX-200”。SoC通过PCI Express 3.0 x4连接。除了具备9通道的PCI Express 2.0总线外,还配备了2个USB 3.1(支持Type-C)、3个USB 3.0和6个USB 2.0端口。作为芯片组,USB 3.1的原生支持是继AMD X370/B350芯片组之后的,领先于Intel。此外,还配备了4个SATA 6Gbps接口。

KX-5000系列的SKU及主要特征

KH-20000系列的SKU及主要特征

作为伴随芯片组的ZX-200,原生支持USB 3.1(Gen2)

ZX-200芯片 声称性能相当于Core i3-6100 KX-5000系列的微架构开发代号为“WuDaoKou”。自2013年8月开始开发,架构进行了全新设计。重新设计或大幅改善了流水线、内存访问带宽、分支预测、乱序执行等机制,IPC比传统产品(ZX-C)提高了25%。此外,多核化使得每个芯片的性能提升了140%,DDR4的支持使得内存带宽提高了120%。 根据中国国内第三方机构对KX-5000的8核模型的基准测试,内存带宽在STREAM 1C COPY中为12GB/s,STREAM 8C COPY中为17GB/s,SPECint2006的得分为19.9,SPECint_rate2006的得分为115。此外,中国大型PC专业媒体“微型计算机”的测试显示,FrizChess的得分为7,911,7-zip的综合得分为12,112MIPS,CINEBENCH R11.5的CPU渲染得分为4.01pts,这相当于Core i3-6100的性能。 不过,这次展示的基准测试都专注于多线程。考虑到KX-5000是8核的,单核性能与2核/4线程的Core i3-6100相比显得相对较低。 不过,传统的ZX-C+是4核原生设计,而8核SKU采用的是将4核芯片封装在一个包装中的方式。由于芯片间的缓存一致性需要通过主板上的北桥进行,因此延迟成为问题。KX-5000系列则集成在一个芯片中,核心间的一致性采用点对点的交叉开关,因此延迟得以减少。

WuDaoKou架构。IPC提高了25%

第三方机构的基准测试结果

大型媒体“微型计算机”也介绍了基准测试结果 在Tick-Tock商业模型下,未来将推出KX-6000和KX-7000 发布会上,KX-5000系列的开发过程也被公开。开发始于2013年8月,2014年6月完成架构设计,2015年7月完成基本设计。随后,2016年4月完成硬件设计,2016年8月进行曝光用的掩模Tape-Out。2016年10月进行了功能验证,2017年10月开始量产。 开发累计耗时达到9000个月。使用了4000个计算核心,开发数据达200TB。此外,投入了10台硬件仿真器和验证平台,模拟了1500亿条指令的组合,进行了300种以上软件的测试,并对CPU、GPU、内存控制器、PCI Express总线进行了全面的性能/功能/可靠性/老化测试。 此外,还获得了Windows硬件质量实验室(WHQL)的认证,实现了对Windows 7/10/10神州网信政府版、中科方德、中标麒麟、普华等操作系统的支持。 目前,兆芯正在采用Intel曾经采用的Tick-Tock模型开发CPU,下一代“LuJiaZui”即“KX-6000”系列将进行16nm缩小,并将工作频率提升至3GHz。接下来的“KX-7000”将更新微架构,支持DDR5内存和PCI Express 4.0。 顺便提一下,该公司的开发代号源于中国地名。ZX-C及ZX-C+世代被称为“ZhangJiang”(张江),这是位于上海浦东新区的高科技园区名称,距离兆芯总部非常近。KX-5000世代的WuDaoKou(五道口)是北京市海淀区的一座车站名称,算得上是中国的秋叶原“中关村”附近。KX-6000世代的LuJiaZui(陆家嘴)又回到上海浦东新区,是浦东最繁华的地区。

KX-5000系列的开发历史

指令仿真器和各种测试通过

Tick-Tock开发模型

中国自产x86 CPU和中国自产OS的难度

发布会上还指出了在中国自主开发CPU和OS的难度。中国的CPU开发起步相对较晚,与在全球活跃的Intel和ARM相比,设计能力仍显不足。

此外,Intel已经积累了丰富的CPU开发经验,并与微软等操作系统开发厂商、Dell和HP等PC制造商建立了良好的生态系统,而中国国内的情况则相去甚远。

尤其是,CPU开发成本高昂的问题也被提及。关于Arm,其主要是IP设计和授权,并不制造半导体,因此可以相对低成本地进行开发。在过去五年中,CPU开发的投资每年平均约为2亿4380万英镑(约375亿日元)。Intel的研发费用平均每年约为114亿美元(约1兆2435亿日元),而AMD的规模仅为其十分之一。IBM和Apple则处于Intel与AMD之间的中等规模, 华为旗下的HiSilicon也在扩大CPU开发的投资,现在已经达到了与Intel相当的规模。另一方面,从架构别的开发研究费用来看,x86设计一个架构大约需要300亿美元,相较于Arm和Power架构要高得多。不过,兆芯自身的研发费用在发布会上并未透露,因此规模不明,但没有300亿美元的投资,x86 CPU的开发是困难的。

关于操作系统的开发,纯粹是人力和资金不足。微软拥有10万规模的员工,但中国的操作系统开发公司即使是规模较大的也只有300到500人。与硬件制造商的生态系统也未建立,资金也不足。Windows Vista的开发费用约为200亿美元,达到阿波罗计划的水平,但在中国国内,没有任何一家操作系统开发企业能够在研发上投入如此大规模的资金,开发水平依然存在差距。

CPU开发的难度。资金和技术方面落后于美国/英国企业。

CPU的开发成本。设计成本、制造成本、测试成本等。

其他公司的研发费用。Arm的单位是亿英镑,Intel/AMD/IBM/Apple的单位是亿美元,华为的单位是亿人民币。

架构的开发费用。x86大约需要30亿到70亿美元,相比于Power和Arm要高。

操作系统开发也被指出资金和人力不足。

与硬件制造商的生态系统相比,Windows和Mac的生态系统规模较小。

Windows Vista的研发费用与阿波罗计划相当。

按操作系统划分的研发费用。

评论:

这篇文章看作者名字就知道指定不是日本人,所以是不是通稿各位自行判别。

KX5000作为半成品架构其实实际水平相比过去张江的以赛亚2半成品架构完成品并没有提高多少,真正先进的地方在于总线结构的优化,主要体现在不完全的SOC化(USB和SATA控制器还没集成进CPU需要ZX200 IO扩展芯片实现类南桥的功能)和IF总线的引入,至于标称IPC提升25%咱不做评价,图吧工具箱的实际跑分其实和FC-1080胶水八核差不多。

还有就是纯自研IP,这点非常关键。

“x86设计一个架构大约需要数十亿美元,相较于Arm和Power架构要高得多”

而兆芯其实做这么一代架构根本用不了这么多钱。虽然相比ZEN1的授权费用绝对要高上不少但是自研架构也没外国研发团队那么贵。这也是传统,威盛的centaur海外X86研发团队从IDT时代祖传的就是讲究一个短平快,研发耗时短研发费用和生产成本平价产品迭代快,虽然到兆芯也就是原威盛大陆团队这研发一代X86架构基本和外国耗时一样都是5年,但是研发费用低芯片生产成本低这点还是延续了的,简而言之KX5000的研发费用和芯片生产成本都并不高,尤其是28nm的KX5000配套的套片ZX200还在用40nm工艺生产,就决定了这套产品注定生产成本不高。

兆芯对工艺的迭代远远比华为海思保守,要知道KX5000是17年的CPU,而这时间华为海思已经用了两代TSMC 16nm了,KX6000在19年发布的时候和华为海思在16-17年出货的麒麟960使用的是同款TSMC N16 FFC(劣于麒麟955的N16 FF+,能效和密度都不如,只有生产成本低一个优点),所以相对的能效表现并不好。

现在某些龙芯网宣喜欢扯什么《用成熟工艺设计芯片才是真本事》,其实有先进工艺不用更多情况不是因为要考虑国产备份工艺(KX6000那年头原定同时上线的HLMC的16nm国产备份工艺延期了很长时间),而是先进工艺流片太贵一般的企业用不起。兆芯是在KX6000有年产数百万片的出货量基础下才能继续迭代工艺用6nm EUV先进工艺流片,这点其实和紫光展锐也比较相似,前期靠落后工艺大量出货创收,后期才能攻关先进工艺,这个路子其实华为海思多年前也是这么走的,华为在早期也用了很多年的28nm,中间跳过了20nm直接上的16nm,顺带避开了TSMC 20nm的坑,但是后来还是踩到了10nm的坑这就比较难评了,其实也应该跳过去直接等7nm DUV的。

现在国内已经有了N+1 N+2等效7nm DUV水平的工艺了龙芯还停留在TSMC 12nm并不是因为龙芯有多爱国所以坚持用国产工艺之类的,而是龙芯就用得起12nm FFC流片,即使是SMIC的14nm龙芯也不是次次都用得起的,成本太高,所以现在无法继续升级工艺只能搁这吃不到葡萄就说葡萄酸扯什么《用成熟工艺设计芯片才是真本事》了,要是真用成熟工艺设计芯片才是真本事龙芯完全可以用纯国产的28nm继续升级架构,而不是搁这用南京台积电的工艺甚至不是中芯国际的14nm去美化工艺生产芯片。

没了

来源:失传技术研究所

相关推荐