站长搜索(www.adminso.com):史上最全面专业评测:一篇文章让你看透iPhone6 苹果习惯在每次发布新iPhone的时候给他们最新的 SoC(系统级芯片)取名,这一次也不例外。随着iPhone6系列的发布,苹果迎来了他们的第八代 SoC,也就是 A8
站长搜索(www.adminso.com):史上最全面专业评测:一篇文章让你看透iPhone6
苹果习惯在每次发布新iPhone的时候给他们最新的 SoC(系统级芯片)取名,这一次也不例外。随着iPhone6系列的发布,苹果迎来了他们的第八代 SoC,也就是 A8。
在 A6 和 A7 的 SoC 的快速更迭后--分别推出了苹果的第一款定制的 CPU 设计(Swift)和第一款基于 ARMv8 AArch 64 的设计(Cyclone 架构)后。A8 这款芯片更具结构性并且是苹果 SoC 设计最为直接的体现。这不是说苹果没有花时间来改进他们的设计,性能和功耗。只是经过观察,我们发现在 A8 中并没有找到类似 A6 和 A7 那样的彻底变化。
▲苹果首款20nm的A8
A8 的心脏和灵魂依然是 CPU 和 GPU。我们稍后会对这两个方面进行更具体的分析,但我们可以说这两个方面都要比 A7 有所进步。苹果今年的 GPU 依然选择了 Imagination 的 PowerVR,今年从基于 G6430 的 Series6 系列升级到了更新的 GX6450 设计。同时苹果继续开发他们自家的 CPU,A8 也采用了最新的设计,这是一个升级版的基于 A7 Cyclone 架构的核心。
此时我们暂且先抛开 GPU 和 CPU,A8 最大的改变是它体积更小了。根据 Chipworks 的拆解显示,A8 采用了台积电新的 20nm 制程工艺,这使得 iPhone 6 成为第一款配备 20nm 制程 SoC 的智能手机。
使用 20nm 制程的工艺我们并不意外,但尽管如此我们还是要考究一下其原因。首先,这意味着苹果已经将生产转移到台积电的 20nm HKMG Planar(高介电金属闸极平面)生产工艺,这使得苹果的 SoC 第一次用上了这种生产工艺。除此之外还有很多可能的理由--而并不是每一个理由都是技术层面的,但从生产发展的角度来看,台积电一直是过去几代 SoC 产品生产的领头代工厂,这使得他们成为第一家可以使用这种工艺来为 SoC 进行量产的公司。
此举值得考虑还因为这意味着苹果首次使用这种有待验证的工艺来为他们的 SoC 量产。在此之前苹果对于使用新的生产工艺的步伐一直不算快,直到去年年底他们才开始使用 28nm 制程的技术来为 A7 进行生产,而这距离 28nm 制程的技术可用已经超过一年了。
最后,使用 20nm 制程的工艺也是很有意思的一件事,因为之前的几代工艺都是“半跃进”式,从 45nm 到 40nm 到 32nm 到 28nm,而从 28nm 一下子跳到 20nm 则被认为是“全跃进”(苹果没有用过 40nm)。这意味着我们看到的是在晶体管密度技术方面的巨大跃进,从理论上来看,也可以看作是功耗的巨大减少。
事实上台积电的 20nm 工艺会是一个大杂烩:它相比 28nm 制程的工艺,可以提供 30%的加速,密度提升 1.9 倍,或者功耗减少 25%。尤其是功耗和速度将会是最直接的体现,任何的高主频都会让功耗的改进不再明显,尤其是比较到三星和台积电的 SoC 的时候。
不考虑台积电和三星直接的微小差别的话,在理想情况下苹果着眼于 51%的区域测量。而在实际情况下,密度将取决于 I/C 的设定管理。对于完整的芯片来说 60-70%的比例系数更算得上是更好的粗略估算。简单地说,对于苹果来说就是获得了更多创造新功能的空间和减少了芯片的总体面积。
与此同时苹果今年再一次地公开了芯片的面积和晶体管的数量。A8 大约有 20 亿个晶体管,与之相对的是 A7 的“超过 10 亿个”--89 平方毫米的面积,这比 A7 的 102 平方毫米减少了 13%。这证明苹果选择在增加功能/性能和减少大小之间选择了分离晶体管的密度,而不是集成在一起。
至于说到使用 20nm 制程的工艺是一个好的主意,是因为苹果和台积电需要处理好 20nm 芯片的良率的问题(20nm 的良率没有 28nm 的高)。良率不高的情况下,更小型的芯片面积可以降低生产过程中的瑕疵来抵消一些良率带来的损失,从而提高总体的良率。
而 A8 在记忆体子系统方面的设计相比 A7 并没有显著的变化。苹果再一次在芯片上放置了 SRAM 缓存来为 CPU 和 GPU 服务。基于对芯片和延迟数的检测,L3 SRAM 缓存依然和 A7 的一样,停留在 4MB。同时我们发现一系列的 SDRAM 接口使得 A8 的 POP (堆叠封装)依然基于主内存。从 iFixit 的拆解可发现,苹果依然使用LPDDR3-1600的1GB内存,这和 LPDDR3 的是同一个速度级别。iFixit 还发现 Hynix 和 Elpida 的内存出现在手机中,这证明苹果再一次使用不同供应商的 RAM(内存)。
而内存带宽方面,我们发现 A8 的内存带宽要比在 A7 使用的高,但提升不大。这可以看出苹果试图更好地对内存带宽进行优化。
来自 Stream Copy 的得分显示,内存带宽最高提升高达 9%,而其它的一些跑分则显示内存带宽只提升了 2-3%。
更有趣的是内存的延迟情况,数据显示了一些我们由 L1 和 L2 缓存得出的意想不到的改进。在主内存的 SRAM 和 6MB+区域的 1MB-4MB 的范围内,内存的延迟在 A8 上持续降低,低于 A7。在这两种情况下,20ns 的延迟比 A7 要快。完全一样的 20ns 增加告诉我们苹果正在 L3 的逻辑值中进行主内存的逻辑值查找,反过来也就是 20ns 的获得是由于 L3 缓存的优化。
这款 A8 的芯片的面积主要是由 CPU,GPU 和 SRAM 组成,其余的空间则被苹果一些整合的设计部件占据。而目前我们很难发现这些区域是整合了什么东西,但我们会在这其中发现音频控制器,USB 控制器,视频编码/解码器,闪存控制器,相机 ISP 和各种各样的线。
而所有的这些区域都覆盖着固定功能的硬件,这不仅对于 A8 的功能十分重要,它对于能耗的控制也是非常关键的。通过分配任务到特定的硬件,苹果会在此花费一点面积,但反之这些区域工作起来会比在软件上更有效率。因为苹果有足够的“动机”来卸掉尽可能多的任务来保持功耗的平衡。
不管怎样,尽管我们无法辨认出 A8 芯片的每一个区域负责什么的功能,但我们可以知道苹果为这些区域都添加了新的功能。而这其中之一就是对于 H.265(视频编码)的整合,这对于使用 H.265 功能来开启 FaceTime 等功能非常重要。
揭开A8神秘面纱
A8 CPU:Cyclone 之后是什么?
虽然对于苹果的 SoC(片上系统)设计来说 CPU 是非常重要的一环,但公司对其架构的守口如瓶之程度还是非常让人吃惊。尽管苹果早就看到了 CPU 在其独特设计中的地位,但在这两年里经历的两个架构,无论哪一个的技术细节,它仍然吝于谈及。很不幸,这现象对于一个刚刚开始其生命周期的 SoC 来说尤其严重,A8 也不例外。
总的来说,最能够确定的是 A8 与 A7 相比没有太多的不同之处,但这并不是一件坏事。在 Cyclone 架构的帮助下苹果走得很坚实:IPC 设计较宽、较高,延迟低,可以在很低的频率下取得很高的性能。在这种设计思路下,苹果就可以在保证能耗足够低的前提下达到自己的性能标准。这与酷睿的理念很相似,考虑得非常周全。此外,由于 Cyclone 的设计非常具有前瞻性,采用了提供 AArch64 执行状态的 ARMv8 ,它的性能已经变得很强大,因此苹果就不需要经常面对彻底革新架构的压力,而 ARMv7 就不是这样了。
从以上分析所得到的结论是,A8 和之前的 Cyclone 没有本质上的区别。A8 肯定不仅仅是高频版的 Cyclone 而已,但比起 Cyclone 相对于 Swift 的革新来,两者的差距就很小了。
可惜的是苹果对于 A8 的保密程度可以说是空前的高,因此来自官方的信息少之又少,甚至连新的架构名称都不知道,只能将它称为 Enhanced Cyclone(加强版 Cyclone)。当然 Enhanced Cyclone 只是对新架构的一种描述而已,苹果内部为了区分肯定还有新的命名,希望它以后会公布。
不管怎么说,能够确定的是 Enhanced Cyclone 有点不像苹果的风格,芯片在从 28nm 的 A7 换到 20nm 的 A8 以后,变得比以前小得多。A8 CPU 部分的面积约为 12.2 平方毫米,较之 A7 的 17.1 平方毫米减小了 29%。即使这个数据并不严谨,也足以说明 A8 在塞入了更多晶体管之后,面积反而更小了。尽管 A8 的晶体管数量不会比 A7 多多少,但这足以说明在 Cyclone 之后苹果的工艺又进步了。
那么问题来了:苹果用这更多的晶体管和节省下来的空间都干什么去了?一部分肯定是用到了存储器接口上,因为 L3 cache 的访问时间在测试中比之前快了 20 毫微秒。随着发掘的深入,事情变得更加有趣了。
首先,在多次测试中 Enhanced Cyclone 的表现就和 Cyclone 非常相似。虽说 A8 的频率有 1.4GHz 而 A7 是 1.3GHz,在许多底层测试里它们表现得就好像同一颗芯片。从数据来看两者没有本质上的不同,Enhanced Cyclone 仍旧是一个拥有较宽 IPC 的六微指令架构,而分支预测错误损失也很像。
可是通过一系列底层测试,我们注意到了两个不同之处:整数乘法和浮点加法。Cyclone 的整数乘法单元只有一个,需要四个周期去执行,但 Enhanced Cyclone 只需要三个。但更让人惊讶的是,后者的整数乘法效能翻了一倍多。尽管这个事实不足以揭开其整个的真面目,但这些数据指出 Enhanced Cyclone 的整数乘法单元翻倍了,也就是说现在它有两个。
与此同时浮点加法这块也有了提升,但不如整数乘法的变化大。Enhanced Cyclone 可能仍是三个浮点 ALU 单元,但与整数乘法这边一样,指令延迟降低了。苹果同样减少了浮点加法的执行周期,从五个下降到了四个。这些变化证明 Enhanced Cyclone 和它的前辈其实并不相同,特别是在整数乘法单元这部分。这种变化令两者十分相似,但在微妙的地方却又是不同的两个架构。
如果不提底层结构,Enhanced Cyclone 的其他方面似乎是原封不动。L1 cache 仍旧保持每个核心 64KB I$ + 64KB D$,这个参数之前在 Cyclone 架构上对比 Swift 是翻倍了的。L2 cache 方面,每个 CPU 核心应该拥有独立的 L2 cache。尽管Enhanced Cyclone在 L2 cache 带宽方面比 Cyclone 要好一点,但这还不足以成为独立 L2 cache 存在的确凿证据。当然了, L3 cache 仍是 4MB,就和上文提到的那样,访问延迟有微小进步。
让我们再一次借用英特尔的概念,Enhanced Cyclone 和 Cyclone 之间的区别就好像英特尔 Tick-Tock 策略的后一步,也就是升级工艺,架构仅是略微增强。这一点很容易看出来:A8 工艺提升到 20nm,同时架构上的改动使得其性能在某些情况下得到加强。另外这颗芯片的主频也提高了 100MHz。总体来说没有兴奋点。如果苹果也想借鉴 Tick-Tock 这个策略,那么这就是具体表现。
在结束了底层测试之后,接下来要通过一些表层测试来对两个架构进行对比。底层测试可以告诉我们单个操作上的进步,而表层测试则可以揭示在实际工作环境下的性能变化。
第一次表层测试首先使用的是 SPECint2000,它由标准性能评估公司开发,是其 SPEC CPU2000 测试平台的整数部分。SPEC CPU2000 开发于本世纪初,对于 PC 处理器来说它早已被淘汰,但对移动处理器却正好合适。因此,SPEC CPU2000 评估 Cyclone 和 Enhanced Cyclone 再好不过了。
SPECint2000 包括 12 个基准测试子项,用于计算出最终的最高分数,尽管在这次测试里单独的每一次结果更吸引人。
如图所示,需要记住的是 A8 的主频要比 A7 高 7.7%,但 SPECint2000 的测试结果却显示 12 个子项的提升均大于这个比例,证明它们在某些方面都得到了额外的加强。在这些子项里 MCF、GCC、PerlBmk 和 GAP 提升最大,幅度从 20% 至 55% 不等。大略来说,这应该是多个小提升相乘所得到的结果。
MCF 是所谓的综合优化基准,提升比例最高,达到 55%。鉴于这些全部都是整数方面的测试,MCF 很有可能受益于整数乘法单元的增强,因为其性能在乘法吞吐量上的提升接近两倍。这个事实暗示任何与整数乘法性能相关的工作都能得到类似的提升,尽管这样的任务我们在现实中用智能手机很少会用到。
除了 SPECint2000 外,另一个要使用的测试平台是 Geekbench 3。与前者不同,后者的测试包括和整数和浮点数两部分内容,因此我们可以双管齐下。
Geekbench 的整数部分测试结果总体来说没有 SPECint2000 那么“激进”,但也出现了一些特别高和特别低的分数。Crypto 在其中是得分最低的,而 Sbel 和 Dijkstra 则最高,分别有 21% 和 37%。有趣的是 Dijkstra,Cyclone 由于 64 位这个因素在 Geekbench 有些性能损失,而 Dijkstra 的提升将这个损失弥补了回来。
之前的底层浮点数测试指出 A8 在浮点数性能上的提升并没有整数性能的大,而表层浮点数测试却显示出不错的结果,说明底层测试并不能代表一切,尤其是像指令窗口这样比较抽象的方面。更重要的是,表层测试证明 Enhanced Cyclone 的性能提升并不仅止于整数运算,而是还包括浮点数这块。
总的来说,尽管在架构上变化不大,但多亏了主频提升、架构优化、内存延迟降低这几方面的加强,Enhanced Cyclone 也就是 A8 在性能上相比 A7 又进步了。明年苹果将面对来自 Cortex-A57 和其他高性能竞争对手的真正威胁,虽然现在来预测它们将如何争斗还为时过早,但至少我们可以说苹果也将会强势应对。更让人兴奋的是,所以的这些性能提升都是建立在苹果本已十分强大的单线程 IPC 的基础上的,这意味着即使是那些对多核心支持不好的任务苹果也能处理得得心应手。
GPU 性能提升详解
苹果在今年的新iPhone发布会中曾向我们介绍A8 SoC(System-on-a-Chip,系统级芯片)时,宣称A8 GPU性能最高提升近50%。对于如此重大的性能提升,芯片专家ChipWorks自然十分期待。根据掌握的信息和事实,苹果已将芯片的制造工艺转向更密集的20nm制程,同时鉴于A7整合的是四核心PowerVR G6430,而且考虑到新iPhone 对屏幕分辨率的要求更高,因此他们初步推测A8可能已经升级到顶级型号的六核心PowerVR GX6650,认为这样的设计似乎更为合理,而且对芯片内核的初步观察也隐约看到了六个簇。
尽管这样的设想看似合情合理,但苹果公司向来对产品的技术参数三缄其口,唯有对新品硬件自行挖掘才能一探究竟。然而,结果证明连ChipWorks这样的顶级专业团队这回也栽了。经过进一步细致研究发现,A8芯片上的GPU组其实只有四个,并非此前推测的六个,这也就排除了拥有6核心GX6650的说法。基于四核心的事实,说明苹果在A8上仍然只采用四核心PowerVR GX6450,那么这将意味着它只是A7 PowerVR G6430的简单升级版。GX6450拥有一定的性能优化和功能升级,如支持ASTC纹理压缩技术,这一点在苹果的文档中已有说明。
GX6450作为A7芯片G6430的直接升级版,它采用了基于Imagination公司推出的PowerVR Series6XT架构。该新型架构是Imagination公司在今年CES展会上首次对外展示的,然而仅在短短8个月之后,我们就已经看到搭载这一全新架构的苹果产品进入市场。
从技术角度上来分析,全新的Series6XT已经成为PowerVR图形处理器架构的新一代产品,它对于前一代Series 6图形处理单元是一个直接的进化,而GX6450同样也成为G6430最直接的继任者。苹果仍然在A8中采用四核心GPU,虽然在其20nm制程上,配置面积仅为19.1mm2的GX6450比22.1mm2的G6430更能节省不少空间,但GX6450相比G6430的硬件规格拥有更高的复杂性以及额外的ALU/SRAM。显然Series6XT重点在增加功能以及提高性能,那么它需要通过对架构进行各种调整和优化才能得以实现。相比之下,两年前问世的Series6架构在这一点已经过时。
在 Series6XT 架构中最接近选取框功能能的就是自适应可扩展纹理压缩(ASTC)技术,这是新一代的纹理压缩技术,它目前正在逐渐被许多厂商采用支持。ASTC的设计是为了提供更好的纹理压缩,它比现有的纹理压缩格式可获得更细粒度的质量,同时还支持所有GPU采用的通用格式。苹果产品一直采用PowerVR图形处理单元,因而其所有产品都支持PVRTC以及更多采用了PVRTC2。但是采用ASTC技术可以令他们的产品的质量改善和提升获得更大的优势,同时也能够让游戏开发和平台移植变得更加容易。
对用户而言不太明显但于苹果来说十分重要的是,Series6XT还包含了新的电源管理功能,能够减少空闲和轻负载功耗。通过更细粒度的功率门控技术,Imagination升级了“PowerGearing G6XT”,GX6450依托于遮光集群(USCs)可以独自断电,它能允许部分重要的关键组件继续负荷工作。随着苹果继续调整产品的设计,这种技术可以帮助设备在闲置时保持较低的功率状态,这将可以提高电池寿命甚至或者增加A8 GPU在较高功率状态使用的效率以及延长使用寿命。
此外,也是最重要的新特性在于,Series6XT包含了一系列可以提高整体性能的优化调整。在PowerVR架构的内部,Imagination对内部结构的运作采用了十分严谨的细节设计,部分区域的结构可能没有大的改变,而不少区域已经采用严格的限制处理。可以推断的是,苹果表示新设备将提高50%的性能,相信这一提升将主要归功于全新Series6XT核心性能比最新的业界标准性能提升50%。不过,实际的应用体验和理论上的说辞总会存在一些偏差,这一点留待后续再做验证。
对于Series6XT,Imagination已经对USCs结构本身进行了部分改进。 Series6XT 仍然使用 16 脚宽的SIMD设计,但在他们已经在每一个管道上添加了另一组介质/半精度(FP16)算术逻辑处理单元(ALU)以此来改善 FP16 性能。现在,Series6XT 全新的4X2(8)FP16 ALU已经取代了2x3(6)。
尽管关注FP16比较有趣,但 iOS 似乎选错了对象。这些半精度浮点运算操作相对更昂贵的 FP32 ALU 能够节省带宽和功率,但代价却是其同时处理的数字却无法达到非常精确,因此这些设计必须经过精心计划。在实践中你会发现是,虽然 FP16 操作确实看起来有用,但绝不是 GPU 操作采用的主要的浮点类型,所以尽管 FP16 增加带来了 33% 的性能改善,但它是指 GPU 的性能在被限制的情况下达到的提升。
不可否认的是,苹果在 A8 中采用 4 核 PowerVR 设计的做法的确令人有些吃惊,尤其是苹果供应商台积电在对 20nm 制程工艺进行改进之后,6 核应该更适合 A8 设计。但根据苹果以往的产品升级策略,两个核心更多反映的是苹果是否需要添加,还是他们不想要一步到位的完成升级。
从 A7 的 G6430 开始,尽管苹果仍然只坚持使用四个 GPU 核心,但产品的性能一直获得不断的改善和提升。归因于 Series6XT 架构以及时钟速度提升相结合,A8 在 GPU 性能上获得了更多的发挥空间。iPhone 6 屏幕的增大以及增加的分辨率都要求更高的性能支持。同时,G6430 显然也推动了iPad Air更大 2048×1536 像素的屏幕支持。
Series6XT 这些性能的改善当然也是需要付出成本代价的,这些成本反映在了每一个固定尺寸的 GPU 组合上。在 28nm 的 A7 之上,G6430 所占的面积为 22.1 平方毫米,而GX6450所占的面积则为 19.1 平方毫米。虽然 GX6450 拥有更小的整体,但它远不及大约 11.1 平方毫米面积的 G6430 所占据的更为窄小的空间。除了有限的面积占比之外,GX6450的附加功能和附加性能都要求更多的晶体管,除非苹果最终决定在更加微小的 GPU 添加更多的核心。换句话说,从 G6430 到 GX6450 的产品升级,苹果已经实现了更多性能(但消耗太多的的模腔)的提升,而不单单是考虑从核心数的增加来看待提升。
整体而言,选择 GX6450 作为 GPU 模块的升级重点似乎是新iPhone的不错选择,这显然是对 A7 时代的 G6430 更明显也更优秀的升级。在迈向Imagination 公司 6 核 PowerVR 设计的更高门槛之前,GX6450 为 GPU 升级带来了更加全面的提升,它令 A8 在图形处理能力上对性能和功率的把握达到了更优异的平衡。在另一方面,这意味着 A8 并不打算通过 GPU 性能来与设计有最快 SoC 的平板设备进行竞争,这代表iPad需要强制性的更新还有待观察。
CPU/GPU/NAND性能
CPU 性能
在我们对 A8 芯片有一个大致的了解后,现在我们可以来谈谈性能。尽管我们在文章开头提到了性能的内容,但在这里还是很有必要进行再一次的讨论。我们使用基于 CPU 的测试套件程序大多数是基于浏览器的跑分标准。
在大多数情况下,尽管主频较低(1.38GHz)和相比其它有竞争力的 SoC 在核心数量上较少,但 A8 的表现依然出色。看起来这主要是建立在 A7 的 Cyclone 架构的领先水平的基础上。至于其它的 SoC 生产商是否能够在某个时候迎头赶上还有待观察,至少在现在,苹果在 CPU 方面的性能是领先蛮多的。
GPU 性能
尽管我们没有真正的游戏评分基准,但我们有相当好的游戏近似值评分准则,这可以凸显 GPU 的性能。在大多数的情况下,这意味着我们可以观察到 A8 的 PowerVR GX6450 GPU 的性能,但有一些方面受到处理器的限制,我们会在稍后讨论这个结果。
编辑的话:在得出结果之前,必须要注意的是 Basemark X 的屏幕上的结果可能不准确,这是因为基准评分是使用了 XCode5.x 来让版本 1.1 和版本 1.1.1 的得分保持可比较性。但这不会影响整体分数,这是基于真实的性能单独计算的。
在多数情况下,我们可以看到 GX6450 基本上和高通的 Adreno 420 处于同一水平。而 3DMark 的测试则显示出了有趣的结果,但这似乎是因为 3DMark 的物理测试具有很强的数据依赖。而 NVIDIA 的 Tegra K1 是目前图形性能的王者,但这也得益于这是用于平板
标签: 史上 最全面 专业 评测 一篇 文章 让你 看透 iPhone6
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!