本网站可能会通过此页面上的链接获得会员佣金。 使用条款.

AMD公司公司 unveiled a great deal of information at Hot Chips about its upcoming “Zen”CPU核心和体系结构。一年多来,这种新芯片一直是众多投机活动的主题,但是在过去的几周里,随着 泄漏的基准 surfaced 和 AMD公司公司 conducted its own 公开测试。

今天’s information dump is the most detail AMD公司公司 has shared to date — in fact, it’s significantly more information than I expected the company to share until 禅 actually launched. Let’s get started.

禅’s design goals

禅 is best understood as a response to the problems that 困扰推土机。 AMD公司公司公司’s 最初的目标 该架构可在CPU牛彩网福彩3d图谜九之间智能共享资源,同时达到比AMD更高的频率和更高的执行效率公司’以前的CPU牛彩网福彩3d图谜九K10。推土机’s failure to deliver left AMD公司公司 in an ugly position: Should it try to repair its old core or return to the drawing board 和 build something completely new?

资料来源’曾与AMD交谈过的建议表明,修复Bulldozer的难度非常重大,以至于AMD选择在没有Bulldozer的情况下从头开始构建新牛彩网福彩3d图谜九’的行李。那不’t mean there’s no 推土机 DNA in 禅 —实际上,AMD表示其通过改进Steamroller和Excavator获得的专业知识’最新的建筑充分利用了其能效。反而说AMD的设计元素是什么 确实 从其先前的架构中借用的将是实际上运行良好的芯片组件,而不是主导其性能的有问题的组件。

缓存架构

推土机的大部分错误都与其缓存子系统和整体架构有关,因此’s a good place to start diving into 禅.

CPU复杂

推土机使用CPU模块(定义为共享资源的一对牛彩网福彩3d图谜九)的概念,而Zen使用复合体。一个CPU复合体(CCX)包含四个牛彩网福彩3d图谜九,2MB的L2高速缓存(每个牛彩网福彩3d图谜九512KB)和8MB的L3高速缓存。这意味着AMD’最高端的消费者Zen总共包含八个核心和16MB的L3缓存,分为2x8MB的块。 AMD公司公司表示,八核芯片上的两个CCX可以通过片上结构彼此通信,尽管在那里’这样做可能会降低性能。

禅’L3缓存用作L1和L2的牺牲者缓存,这意味着从这些缓存中逐出的数据将存储在L3中。它’也是16向关联的,这是与推土机相比的重大变化’的64路关联L3。具有较高集合相关性的高速缓存更有可能包含CPU正在查找的信息,但搜索时间更长—使Bulldozer瘫痪的问题之一是几乎每个阶段的缓存延迟。

我们不’L3缓存或集成内存控制器上的时钟速度一无所知。从历史上看,AMD公司’推土机派生的CPU和APU使用的时钟为1.8–L3缓存和IMC为2.2GHz。

禅Cache

AMD公司公司表示,L1和L2带宽接近挖掘机的2倍,而L3带宽据称高5倍。这些更改应使牛彩网福彩3d图谜九保持供电并支持更高的性能。 L1缓存是写回而不是直写— that’这是一项重大更改,可以提高性能并减少缓存争用(Bulldozer’直写式高速缓存意味着在某些情况下,L1的性能可能会受到L2高速缓存的写入速度的限制。

CPU核心

We’ve已经解决了缓存,所以让’检查CPU核心本身。

禅uarch

这里’s 禅’的高级核心图。与AMD相比有几个显着差异公司’的较旧的Bulldozer牛彩网福彩3d图谜九,包括添加操作缓存,微操作队列以及每个牛彩网福彩3d图谜九更多数量的整数管道。

禅-Queue

这里’s是如何获取核心的扩展视图。这是推土机的另一个主要问题领域—推土机和打桩机 ’s的共享逻辑意味着调度单元只能在每个时钟周期将工作发送到一个牛彩网福彩3d图谜九或其他牛彩网福彩3d图谜九。 压路机后来通过将调度单元加倍来解决此问题,但这仅导致了适度的性能改进。

AMD公司公司从英特尔那里获得了一页’的书,并使用Zen实现了操作缓存,即使我们不这样做’对功能的细节了解不多。这样,CPU可以缓存可能需要重复分配的解码操作,而不是要求它重复解码和分配相同的指令。每个Zen牛彩网福彩3d图谜九每个时钟周期可以解码四个指令,但是微操作队列每个周期可以调度六个指令。显然,AMD预计其缓存将减轻解码单元的压力,并在保持牛彩网福彩3d图谜九功耗的同时降低功耗。 压路机有一个宏操作队列,最多可容纳40个宏操作,但其作用仅限于微小的循环。

禅-Fetch

Like the 推土机 family, 禅 can theoretically fetch 32 bytes of data at a time, though CPU analyst 阿格纳雾 发现使用两个牛彩网福彩3d图谜九时,Bulldozer牛彩网福彩3d图谜九系列实际上限于21字节的数据,如果使用一个牛彩网福彩3d图谜九,则限于16字节。他认为这个限制可能就是为什么在Steamroller上加倍’s dispatch units yielded relatively limited results. Resolving this in 禅 could be part of why AMD公司公司 has significantly improved its IPC.

禅-Integer

整数核已从推土机家族中重新平衡。在推土机之前,AMD公司’K10将三个ALU与三个AGU(地址生成单元)配对。推土机将其精简为每个核心两个ALU和两个AGU。加上BD / PD核心中有限的调度功能,这被认为是主要的性能瓶颈,直到 压路机 增加了额外的调度功能,并削减了Kaveri在跨多个牛彩网福彩3d图谜九扩展时要付出的代价。 (打桩机 推土机的缩放比例约为您的1.8倍’d expect from a “true”双核处理器,而Steamroller的性能约为1.9倍。)与推土机相比,四个ALU和两个AGU可以提高整体性能’狭窄的设计,但我们’我将不得不看看该芯片在基准测试中的表现。

浮点禅

AMD公司公司’浮点单元仍将对AVX和AVX2使用128位寄存器,但是某些FP操作的等待时间已减少,现在有四个管道(而不是三个)供FPU使用。 CPU不是’能够在单个周期内执行256位AVX指令。这是否会在现实世界的代码中造成损害是一个悬而未决的问题,但AVX / AVX2避风港’像SSE2曾经的方法一样提高了一般应用程序的性能。

放在一起:

If you want a single high-level slide that captures what AMD公司公司 has disclosed about 禅 to date, this is it:

设计目标

我仍然有一些芯片领域’像SMT一样,因为我想研究AMD公司’SMT实施与英特尔不同’s but haven’t had time to examine the topic in-depth. AMD公司公司 hasn’t stated that 禅 将 use features like 卡里佐’s AVFS,但鉴于他们’ve将这种方法扩展了 两个北极星 和他们的APU线’他们会安全地打赌。

还在那儿’s a lot here to suggest that 禅 deliver substantially better performance than any 推土机 core ever did. The devil, as always, 将 be in the details. How much performance 确实 AMD公司公司 gain with 贴片机? What clock speeds can it hit? How 将 it price the core against Intel’当前的产品?它会交付吗“enough”性能改进的概念,以及其芯片组功能与英特尔向市场推出的产品相比如何?

These are important questions that 将 ultimately determine whether 禅 can reignite competition in the CPU market. Speaking strictly for myself, I’m cautiously optimistic about 禅. 推土机回顾一下,从2011年到2016年,对于CPU和代工业务的现实情况,它的定位几乎是完全错误的。这是一款专为高频设计的CPU,而此时CPU的频率已率先面临基本的扩展限制。 AMD公司公司改进了核心’性能和功率效率,但无法’首先解决打破它的问题。它’考虑到公司从一开始就可以将IPC提高40%的芯片进行旋转,这一点并不荒谬。

禅 确实n’t need to match Intel clock-for-clock or core-for-core to be a huge improvement over where AMD公司公司 is today. It needs to offer improved efficiency, power efficiency, 和 much more competitive performance at a relevant price point. Based on what AMD公司公司 到目前为止,我认为他们’ve got a real chance of pulling it off. And while we thought much the same thing about 推土机 five years ago, 禅 不是’t 尝试创建一种新型的共享资源CPU。归根结底,这一点很重要。

禅 is expected to debut in Q1 2017 in wide volume. The current smart money is on a CES debut 和 launch, though that’只是基于先前的时间表和产品周期的猜测。