是否可以提高一锤手机的CPU浮点运算如何锤炼和提高党性提高

cpu能力测试软件|cpu浮点运算能力测试软件1.0 免费版-东坡下载
东坡下载:内容最丰富最安全的下载站!
→ cpu浮点运算能力测试软件 1.0 免费版
cpu的性能是电脑的重要指标之一,小编带来了cpu能力测试软件,可以用这款软件来测试电脑的cpu性能,需要的朋友可以来下载!cpu能力测试软件介绍cpu能力测试软件能够测试CPU性能并在网上进行排名,以便自已更加清楚自已电脑cpu的能力及运行状态如何!支持在线上传测试的分数,并给出排名!cpu怎么看性能好坏1.主频、外频和倍频主频(CPU Clock Speed)也叫做时钟频率,表示在CPU内数字脉冲信号震荡的速度。主频越高,CPU在一个时钟周期里所能完成的指令数也就越多,CPU的运算速度也就越快。2.制造工艺早期的CPU大多采用0.5pm的制作工艺,后来随着CPU频率的提高,0.25pm制造工艺被普遍采用。在1999年底,Intel公司推出了采用0.18um制作工艺的PentiumⅢ处理器,即Coppermine(铜矿)处理器。更精细的工艺使得原有晶体管门电路更大限度地缩小了,能耗越来越低,CPU也就更省电。3.扩展总线速度扩展总线速度(Expansion―Bus Speed),是指微机系统的局部总线,如:ISA、PCI或AGP总线。平时用户打开电脑机箱时,总可以看见一些插槽般的东西,这些东西又叫做扩展槽,上面可以插显卡、声卡、网卡之类的功能模块,而扩展总线就是CPU用以联系这些设备的桥梁。4.前端总线前端总线是AMD在推出K7 CPU时提出的概念,一直以来很多人都误认为这个名词不过是外频的一个别称。实际上,平时所说的外频是指CPU与主板的连接速度,这个概念是建立在数字脉冲信号震荡速度的基础之上;而前端总线速度指的是数据传输的速度。例如100MHz外频特指数字脉冲信号在每秒钟震荡1000万次,而100MHz前端总线则指的是每秒钟CPU可接受的数据传输量是lOOMHz×64bit÷8bit/Byte=800MB。就处理器速度而言,前端总线比外频更具代表性。5.内存总线速度内存总线速度(Memory―Bus Speed)也就是系统总路线速度,一般等同于CPU的外频。
安卓官方手机版
IOS官方手机版
cpu浮点运算能力测试软件截图
cpu测试优化工具是小编在本站整理的一些关于cpu检测的软件,包含性能测试,cpu优化等多个功能,帮助你实时掌握你的cpu性能状况,还能帮助你提升cpu的性能等,非常好用的一些软件,电脑必备,需要的用户欢迎持续关注本...
中文 / 2.5MCPU-Z除了使用Intel或AMD自己的检
中文 / 4.9MCPU-Z是PC /Windows平台的C
中文 / 614KB
中文 / 563KB
英文 / 449KB电脑的正常运行需要各种硬件的支
中文 / 1.4MCPU检测报警器是一个简单实用的C
CPU作为计算机的核心处理器,可以说是计算机中最重要的一个部分。可能日常使用中我们都不会去关注CPU的使用情况,可是一旦CPU出现问题,那么对于我们的计算机来说就是致命的。本站收集整理了一些比较常用的CPU工具,...
中文 / 4.0M海狸温度计是一款在2016年最抢手
中文 / 1.4MCPUcores破解版,一款可以提高FP
英文 / 0KB
中文 / 54KB这是一用计算圆周率来测试cpu运算
多国语言[中文] / 1.5M今天小编给大家带来一款手机超频
中文 / 4.9MCPU-Z是PC /Windows平台的C
cpu浮点运算能力测试软件 1.0 免费版
本类最新软件
本类软件推荐
25M / 09-16 / 11.5.44.1230 官方最新版
17.2M / 09-01 / 7.0.5.10官方最新版 for 32/64位
25.3M / 08-17 / 2.5.44.1220官网最新版
7.8M / 08-02 / 3.0.17.718最新版
409.6M / 07-26 / 4.0官方最新免费版
本类软件排行
本类软件必备
关机分区卸载U盘
请简要描述您遇到的错误,我们将尽快予以修正。
轮坛转帖HTML方式
轮坛转帖UBB方式真的要罢黜显卡? 融合处理器前景分析_硬件_科技时代_新浪网
真的要罢黜显卡? 融合处理器前景分析
作者:中关村在线 郑成龙
第1页:融合处理器频亮相缘由何故?写在前边:若干年前,当时处理器业务如日中天的AMD宣布了一项庞大的计划,就是要将独立显卡的核心GPU和电脑的核心CPU整合在一起。现在我们了解到,这项计划的名称叫做融聚。不过限于技术方面的原因,融聚计划的推进速度是不尽如人意的。随着技术的发展,融聚(融合)距离实现已经越来越近了,不仅AMD方面为此做好了准备,就连并无独立显卡业务的Intel也推出了成品。眼下融聚(融合)时代即将来临,但他的最终目的依然让人难以琢磨。这融聚(融合)计划真的是要干掉独立显卡吗?我们不妨对他的前景分析一下。
  关于GPU与CPU的融合我们需要了解一下他的历史。关于GPU融入CPU的计划最早应该始于06年末至07年初的某一时间。发起人正是宣布融聚计划的AMD。早先人们对CPU+GPU融合的任何还非常片面,仅仅是认为这是简单的将整合显卡融入CPU以赚取高额利润的想法。但随着通用计算等技术的推广,采用融合技术的处理器其优点已经慢慢的凸显出来。
通用计算方面NVIDIA是行家
  也许是受NVIDIA的CUDA通用计算技术推广较为成功的启发,融合芯片通用计算的概念率先被Intel提了出来,随后AMD也凭借着Stream的推广也将通用计算的概念付诸在了融合芯片当中。为何两家芯片巨头完了显卡厂商一步我们不得而知,至少现在我们了解到了他们这样做的目的。并且还知道他们这样的宣传为时不晚。
AMD是首家进行融合芯片计划的芯片厂商
  要说融合概念着手实施的厂商,AMD可以算得上第一个,毕竟这概念是由AMD自己率先提出来的。但无奈的是,由于AMD当时由于刚刚收购完ATi,且Intel方面的酷睿处理器表现太好抢占了不少的市场份额。造成了AMD在资金链上出现了一定的问题。加之融合技术在当时还不太成熟。所以AMD方面虽然着手实施较早,但收效甚微,直到2010年初的时候才让我们得知APU(融聚概念的产物)终于取得了成功。
AMD高级副总裁兼产品事业部总经理Rick Bergman展示APU晶圆
  提到CPU领域,就必须提到Intel,最为行业的领军企业,Intel在融合计划中当然不能落后,虽然在概念的提出上Intel比AMD晚了许多,但是凭借这雄厚的技术基础以及资金支持Intel抢先AMD一部将融合处理器正式生产了出来,并非是现在带有IGP芯片的酷睿i3/i5处理器,而是Intel的下一代架构处理器Sandy Bridge。
ComputeX上Intel展示Sandy Bridge显示能力
  在刚刚结束的ComputeX上,Intel再一次在世人面前展示了Sandy Bridge处理器,与IDF2010峰会上不同,Intel这次展示的是一台可以运行Sandy Bridge的完整系统,并且还展示了其3D运行能力(见上图)。从官方的演示来看,Sandy Bridge的整体性能已经足以与酷睿i7搭配独立显卡抗衡,可见Intel在larrabee计划迟迟未见效果的时候,还是能够拿的出一些算的上成功的产品的。这一点不得不佩服Intel的强大。
第2页:独立显卡 融合CPU各司其职
  前边我们说了很多关于融合处理器的历史,接下来我们在来说一说融合处理器相比当前的CPU都能够获得哪些好处。也就是芯片厂商为何绞尽脑汁也要去研发制造融合处理器。
  首先第一条,融合GPU的CPU在浮点运算能力上可以提高数倍。对硬件熟悉的朋友可能都会了解,GPU之所以能够更为完美的支持3D游戏并带来非常华丽的画面和他的浮点运算能力是有很大关系的。而CPU则在浮点运算能力上略显不足。如果要想提高CPU的浮点运算能力的话,那么融合进入GPU帮助辅助运算是再好不过的办法了,于是乎融合处理器的概念便被提了出来。
当年的387处理器就进行浮点运算的协处理器
  GPU的加入可以大大提高处理器的浮点运算能力,从而也提高了处理器的整体运算能力。这在以打拼性能为主的处理器市场中具有举足轻重的意义,作为芯片厂商自然不能放过。此外融合进GPU的处理器在一定程度上也可以帮助芯片厂商消化掉整合芯片的部分市场。至少以后的整合市场将从以主板为导向转变到以处理器为导向上,这样的做法不能不说是一举两得。
通用计算方面融合处理器目前还是弱者(图为NVIDIA为通用计算而设计的Tesla)
  至于通用计算方面,依笔者看还只是两家芯片厂商的宣传口号而已,毕竟通用计算领域的最强者还是NVIDIA,可不要忘了Tesla是专门为通用计算而开发的强大芯片。拥有30亿个晶体管的Tesla核心可不是融合进GPU的处理器在一瞬间就能够超越的。当然换个角度来看,如果通用计算仅设定在平民级使用的话,类似的融合处理器还是可以满足用户使用的,毕竟家用对性能的要求不会像科学运算那样高。
被网友猜测为larrabee的显卡其实是Intel Aubrey Isle处理器
  融合进GPU之后的处理器性能又将如何呢?这自然不用问,得到了GPU浮点运算帮助的处理器性能自然要比现在的处理器强。即使用户不适用整合GPU,其带来的好处也是显而易见的。不过笔者猜测,整合进GPU的处理器AMD在3D输出方面应该要好于Intel,但在基础运算方面仍然是Intel的强项。毕竟两家现在各有所长,仅靠一个融合还并不能完全分出胜负。
强大独立显卡的地位不是融合处理器能够撼动的
  至于一直所探讨的融合CPU会取代独立显卡这一说法,笔者并不支持。首先从晶体管数量上就可以看出两者之间的差距。以NVIDIA Fermi架构的GTX480为例,其GPU已经拥有了数量庞大的30亿个晶体管,而CPU中晶体管数量最大的酷睿i7 980X也不过11亿个晶体管,两者差距可想而知,此外GPU是专职的浮点运算与3D渲染单元,而X86架构的处理器所做的事情还有操作系统这一层面,即使CPU当中融进了GPU的能力,也不可能在有限的晶体管数量上达到独立GPU的效能。所以说GPU融进CPU是可能的,但是靠整合CPU代替独立GPU至少在现在还是不可能的。
电话:010-!your_mobile_browser! |
& 转帖:2013年手机处理器终极指南
查看: 5225|回复: 25
性别男&UID398601&帖子821&主题34&精华0&龙晶1 &龙威0 &积分4&阅读权限70&好友0&注册时间&最后登录&
精华0&龙威0 &积分4&好友0&注册时间&
[p=28, null, left]你一定很厌烦Android平台上无穷无尽的硬件大战,但我们很遗憾的告诉你:在谷歌对Android发展方向做出战略性调整之前,硬件规格是评价Android设备好坏的重要标准,对于部分用户而言甚至是唯一标准。历代热销的Android手机型号,无一不具备同时代手机中领先的硬件规格;即便是iPhone和iPad,为了实现一流的体验,也配备了地球上最庞大的嵌入式GPU。可以这么说:一台硬件规格强悍的手机不一定是好的Android手机,但一台好的Android手机,必然是一台硬件规格强悍的手机。[p=28, null, center][p=28, null, left]   科技的发展总是日新月异的,只不过短短一年半,手机就已经到了坐四望八的时代。面对网上众多一知半解和“专家们”的误读,我们特意准备了两篇文章,上一篇对已经问世的四核平台作回顾和分析,下一篇再来展望今年和明年将要到来的新平台。与此同时,我们也会对这个行业的现状、将要遇到的难题以及未来发展的趋势做一些分析和预测,希望能帮大家拨开谜雾,真正了移动处理器的昨天、今天和明天。
群雄并起 四核平台微架构初探[p=28, null, left]由于种种原因,德州仪器选择了在双核转四核的时代退出了移动领域SoC的竞争。对于一家如此老牌的企业而言,这实在是显得有些奇怪,个中原因可能也只有德州仪器自己才能告诉我们了。作为结果,曾经的四大天王变成了三足鼎立,整个2012年,市场上只能见到三星、高通和nVIDIA的“三国演义”了。当然,我们也不应该忽略MTK,毕竟后者在今年初也推出了定位入门级的低端四核Cortex A7并且取得了不俗的市场成绩。但是这篇文章毕竟是以旗舰平台为主,因此就不对MTK做过多介绍,关于MTK的架构设计我们将会在完成架构分析和性能验证后再开新篇。希望各位不要介意。[p=28, null, center][p=28, null, center]德州仪器曾经的路线图,OMAP5清晰可见
[p=28, null, left]既是先锋也是先烈 NVIDIA Tegra3[p=28, null, left]   截止去年为止,nVIDIA的行事风格一直都是“天下武功唯快不破”。甚至早在2011年底,Tegra3就已经走入了实际产品,而去年第一批搭配四核处理器的手机更是无一例外清一色Tegra3。相比Tegra2,前者的架构改动并不大,只是将CPU子系统从双核Cortex A9增加到了四核Cortex A9,集成的GPU也依是较老的GeForce ULP系列,顶点维持不变,像素和光栅化等组件得到了增强。只是作为一个四核CPU,内存维持了单通道LPDDR2的设计,显得比较莫名其妙。[p=28, null, center]
[p=28, null, left]   现在看来,导致Tegra3成为一代最弱四核的一个主要原因,还是落后的工艺。但是这并不能过多责怪nVIDIA,毕竟后者和台积电打了多年交道,深知台积电的特色,因此主动放弃了28nm。事实上台积电一直到2012年下半年才总算可以勉强量产28nm芯片,证明了nVIDIA的远见。不过40nm的功耗却不是可以回避掉的问题,所以nVIDIA特别设计了4+1核心的奇特架构,这也成了nVIDIA产品的设计特色之一,一直延续到了今年的Tegra4和Tegra4i,与ARM的big.Little技术相映成辉。[p=28, null, left]   众所周知,Tegra2因为缺少NEON协处理器,在双核时代被人吐槽的不轻,Tegra3总算没有再犯同样的错误。不过Tegra3却存在着一个由4+1架构带来的新问题,那就是由于主核和伴核共享同一片1MB的二级缓存,而两者的频率之间最多可以差到3倍,因此Tegra3的二级缓存被设计为按照一个固定的时间返回核心所请求的数据——对于主核而言,二级缓存的等待周期会多一些,而对于伴核而言则少一些。这样的设计不可避免的会让二级缓存工作在一个比较“慢”的状态(尤其是对主核心而言),进而影响整体性能。而实际上由于伴核的工作条件比较受限,并不是随时随地都可以切换,因此很多时候Tegra3也不得不以高功耗的主核心去应付低负载,也许会对功耗产生负面影响。这些影响,也最终决定了Tegra3的用户体验与评价。[p=28, null, left]谨小慎微步步为营 三星Exynos4 Quad
   说起Exynos4 Quad,也许Exynos 4412这个名字更为人熟悉一些。它就是Galaxy S III与Galaxy Note 2的核心,2012年最为热门的四核SoC。若从角度来看,Exynos 4412显得相当朴素:基本上,你可以把它看作是“猎户座”处理器的工艺升级外加四核版。但是即便如此,这款产品的实际表现却几乎成为一代标杆,原因除去上一代猎户座在规格和性能上已经足够优秀以外,更重要的还是先进的工艺——这成为了Exynos4412的杀手锏,甚至在现在看来,Exynos 4412也有可能是迄今为止最为平衡的一款SoC。[p=28, null, center][p=28, null, left]   当然这么说也不太准确,Exynos4 Quad也有一些比较小的改进,比如四颗核心的频率和电压具备完全独立的门控(听起来有些像高通异步架构的特性,不过实际中还是必须跑同频)、改进了内存控制器与CPU核心的连接方式、codec升级了视频编码的流畅度、引入了完善的温度控制和过热保护等等。都不是什么大提升,姑且算作锦上添花。[p=28, null, left]   与高通相比,三星对于工艺的宣传要低调的多——这是很奇怪的情况,在高通的营销攻势下,很多人以为28nm“是最先进的工艺”。在某种程度上说这也不算是错的,但实际情况是,Exynos 4412的制造工艺——32nm HKMG——要远比高通的28nm先进得多,甚至可以说有着“代”一级的差异。这也许会令人费解,我们留到后面再详细介绍。[p=28, null, left]   也正是因为工艺的进步,Exynos 4412的核心频率被定在1.4/1.6GHz,GPU频率更是从猎户座的200MHz大幅提升到了440MHz,几乎翻倍。唯一可惜的是,具体的GPU依然还是Mali400 MP4,并没有更换。这在当时自然不是什么问题,但是到今天开来,这就成了Exynos 4412最大的短版。[p=28, null, left]架构为王 高通骁龙S4 Pro APQ8064[p=28, null, left]与NVIDIA不同,高通果断选择了28nm工艺,带来的结果就是APQ8064这款产品与预期的上市时间相比几乎延期了整整一年,而早期的低良品率也让高通不得不先推出双核产品作为过渡。当然高通也有自己的苦衷,APQ8064实在是太大了,即便使用了28nm工艺,核心面积也只能堪堪控制在100mm2上下。造成这个的原因是高通同时升级了CPU和GPU的核心架构。从Scorpion升级到了Krait“环蛇”,后者同样也是高通在ARM v7-A指令集上自行发展的核心设计,就像ARM官方以Cortex A命名的核心设计一样。在早期的宣传中,高通一直试图让消费者以为Krait是与Cortex A15同级的产品,当然随着时间的流逝,在实际表现的面前,这种说法的信奉者越来越少,以至于高通也不再提及了,不过至于究竟是怎样的情况,我们还是需要在后文中作进一步的分析,才可以给出一个大致的结论。[p=28, null, center][p=28, null, left]   Adreno320 GPU则是另一个亮点。与前任Adreno 22x相比,Adreno320对于微架构做了较为大幅的优化,改善了内部缓存的连接方式,增加了片内EDRAM高速缓存(最终产品中是否出现似乎没有确认),最重要的是,Adreno320的规模再次得到了翻倍,拥有16组4+1D SIMD US。如果以规模论,这会是移动GPU领域除去SGX554MP4以外最为庞大、性能最强、也最为耗电的GPU,在Android领域更加是全无敌手。[p=28, null, center][p=28, null, left]   简短的回顾到此为止,下面我们会对上一代旗舰的某些技术细节做更进一步的探讨。庖丁解牛 三款四核处理器深入技术对比
[p=28, null, left]   不夸张地说,工艺是IT行业的基础。有趣的是,上一代产品中,高通、三星、NV三家公司分别选择了三种不同的工艺:Tegra3采用了台积电“40nm Fast G”,APQ8064采用了台积电“28nm LP”,Exynos 4 Quad则采用了三星自家的“32nm LP HKMG”。如果你已经头晕了,不要先忙着说虽不明但觉厉,这些工艺的代号的确会让人眼花缭乱,但它们是理解工艺细节的关键,所以我们必须要了解一下半导体工艺的相关基础知识。虽然这些都是2012年的产品,但是了解一些工艺细节也更利于我们分析今年甚至未来的新产品。[p=28, null, center][p=28, null, left]   首先,所谓的45nm、28nm,这些数字都意味着线宽,简单理解就是内部晶体管的尺寸。这可能是半导体工艺中最直观也最具欺骗性的参数——大家都可能认为数字越小越先进,但实际情况远没有这么简单。[p=28, null, left]   严格来说,线宽数字本身就具有一定的欺骗性。在半导体行业中存在两种类型的企业,一种是以、三星为代表的拥有自主制造能力的企业,另一种则是以nVIDIA、高通为代表的Fabless,即设计代工型企业。对于后者而言,芯片的制造往往交给诸如台积电、中芯国际等半导体代工厂负责。正常而言,每一代逻辑芯片工艺的线宽基本上都是以70%的比例不断降低,就Intel为例,近几年我们熟悉的有 90nm、65nm、45nm、32nm和最新的22nm。[p=28, null, center][p=28, null, left]   由于这些企业的卖的是产品而不是工艺,不论是技术还是工艺,主要都是为了自用,所以不会对这方面的宣传太过在意,但对于台积电而言,由于它的业务是代工,因此工艺细节就成了最主要的宣传对象。或许是为了让自己的技术看起来更“先进”一些,台积电自130nm节点开始,每一代工艺的线宽都要比Intel小一点——分别是110nm、80nm、65nm、40nm、28nm和20nm。这样的决策老实说,可能更多只是商业目的,技术上的差别并不会太大,甚至曾经出现过以台积电110nm工艺制造的芯片,在电子显微镜下观察,实际线宽浮动在120~130nm的情况。因此本质上来说,他们都属于同一代,单纯以线宽论,不论是28nm还是32nm,并不存在明显的孰优孰劣关系。[p=28, null, left]   因此大家就知道了,Tegra3所采用的40nm工艺和45nm是属于同一代的,而Exynos 4 Quad和APQ8064采用的32和28nm则是最新一代的节点。Tegra3之所以选择上一代工艺,之前提到了是因为产能,但是产能到底影响有多大?[p=28, null, left]   如果回顾以下台积电的路线图,那么按照原计划,28nm工艺原本计划在2011年9月量产——注意,是2011年。但实际上一直到2012年6月为止都无法达到传统意义上的大规模量产的水平,甚至一直到今天,依然无法完全令人满意,以至于高通已经将部分28nm订单转移给了联电和三星。而三星也同样遇到了这种问题,Exynos 4412的投产也比原计划晚了大约半年。10个月的拖延,在科技界不论是谁都是绝对无法承受的,所以纵使Tegra3再弱再慢再热,当市场上不存在其他选择的时候,它就是唯一的赢家。[p=28, null, center][p=28, null, center]TSMC的路线图:2013年将投产16nm,而实际上连CLN28HPL都看不到[p=28, null, left]   未来随着新一代工艺节点研发难度的持续增大,可以预计“延期”会变得越来越普遍,而换代周期也会变得越来越长。前半导体工厂,现代工厂GF的28nm就比预期的投产时间足足晚了一年多。目前来看,除了Intel以外,我们很难看到有谁可以保证在2013年内量产22/20nm工艺,而如果再进一步到下一代的16/14nm,不确定的因素就更大了。这就像是半导体行业的一枚定时炸弹,也许在不远的将来就会带来明显的影响。相信现在你已经明白“线宽”这个参数的区别,那么就让我们更进一步,去看看线宽以外的东西。[p=28, null, center][p=28, null, left]   线宽以外还有东西?当然。拿Intel处理器来说,同一代工艺的产品(比如最新的22nm Ivy Bridge),桌面版的功耗为77W,而移动版就只有17W,当然频率是一方面,但更重要的原因则是所谓的“工艺方向”。大体来说,任何一代线宽下都会有三个工艺方向:高性能型、通用型、低功耗型,它们是在“功耗——性能”轴上取不同平衡的产物。同样的线宽,不同的工艺方向,差别甚至可以达到数倍之多,因此只谈论线宽是没有意义的。高通和三星的芯片均采用了低功耗型即LP工艺,唯独nVIDIA因为设计了LP工艺制造的伴核,从而使用通用型即Fast G 工艺制造剩下的部分以追求更低的满负荷功耗。[p=28, null, left]   这么说来,那么高通就和三星一样省电——且慢,事情并不是这么简单。线宽和方向也远远不是工艺的全部,在这个领域还有很多的高级技术,它们发挥的影响力,甚至可以超越以上的一切。细心的你应该注意到了,在本回合开头的工艺介绍中,有诸如“HKMG”这样的缩写,这四个字母正是代表着一个高级技术:它指高介电常数金属栅极,英文为High-K Metal Gate,缩写为HKMG。这是一个非常先进但也非常复杂的技术,详细介绍可以写许多本书,我们作为消费者或技术爱好者,只需知道个大概:HKMG就是利用高介电常数的金属氧化物(例如氧化铪或者氧化铝)代替传统的二氧化硅作为栅极绝缘层,提高栅极对电子的容纳能力与对沟道的控制力,进而降低漏电,更重要的是降低高频率下的功耗。它的效果有多好?根据三星提供的数据, HKMG相对于SiON/Poly-Si工艺在同样的延迟(简单理解即频率)下漏电最多可以降低到十分之一,而同样的漏电下频率最多可以提升40%。Exynos 4 Quad也正是借助这样的先进工艺,在核心数翻倍的情况下,整体功耗依然降低了20%。[p=28, null, center][p=28, null, left]   Exynos 4412当然使用了HKMG技术,但高通则令人失望。虽然台积电也拥有28nm HPL HKMG工艺,但高通选择的却是基于SiON/Poly-Si的28nm LP工艺。不仅APQ8064如此,甚至最新的骁龙600 APQ8064T,也还在采用28nm LP工艺制造。这一方面是因为HKMG会抬高制造成本,更重要的是台积电的28nm HPL HKMG工艺至今尚未量产,预计的时间将在2013年底到2014年初。这些因素综合起来,使得28nm LP成为了事实上的唯一选择——这自然会对APQ8064的功耗带来一定负面的影响,这个影响目前来看还是非常明显的。微架构设计谁主沉浮?
[p=28, null, left]   早在2011年,围绕“Scorpion和Cortex A9到底谁更好”就已经展开过一些争论,随着时间的过去,事实慢慢证明了,Cortex A9的确技高一筹,而Scorpion则不幸成了“高频低能”的形象代言人。前文中我们曾提到,骁龙S4所采用的核心是自行研发的,高通表示这颗处理器的基础架构要远比Cortex A9先进,那么,它算不算ARM新一代架构Cortex A15呢?很显然这一定会引发另一场争论——至少在当时。为了分析这个问题,我们需要深入到架构内部。[p=28, null, center][p=28, null, left]   首先看一下规格:3指令发射、乱序执行流水线、3300DMIPS/MHz,的确和Cortex A15很接近。但是实际上Krait核心在大多数时候的表现却和Cortex A9相去不多,这究竟是为什么?答案自然是架构。虽然高通并没有公开Krait的详细架构,但是根据性能表现和一些特征性参数,我们也可以大概猜测一下。[p=28, null, left]   在开始之前,首先需要来观察一下Cortex A9的架构:[p=28, null, center][p=28, null, left]   从逻辑角度说,处理器的工作过程是读取指令-&解码指令-&分派给执行机构-&进行运算-&把结果写回内存-&读取下一条指令的循环。对应在架构图理,指令从左下角的预取(Prefetch Stage)级进入到上方的解码(Decode Stage)级,经过必要的处理(Register Rename)后,进入乱序指令分发(Dispatch)级,送给各个执行(ALU/NEON)器,最后进入乱序写回(Write back)部分。这一条路径,就是所谓的指令流水线,也就是下面这张图。[p=28, null, center][p=28, null, left]   处理器的工作,就是不断读取内存中的应用指令流,然后把它尽可能快的塞进执行流水线。因此吞吐量是一个CPU架构很重要的指标,而吞吐量可以用IPC来衡量,即每周期指令数。Cortex A9的指令解码器(图中De)具备单周期解码两个指令的能力,因此是一个双发射的核心,具备的最大IPC为2。但是光解码没有用,还需要把解码后的指令送入执行流水线才可以真正实现功能,而这是靠乱序指令分派器(图中Iss)实现的。在Cortex A9里,这个部件具备3+1个端口,也就是说总共可以挂接四组执行器,但只能同时分派3个(有一个端口是复用的)。执行单元部有两个通用执行器(其中一个除去整数运算以外还支持并发执行一个硬件乘法运算)、一个访存器和命名为“Compute Engine”的运算协处理器,也就是我们知道的VFP和NEON。[p=28, null, center][p=28, null, left]   到了Cortex A15,取指宽度提升到了128bit(Cortex A9只有64bit,后文详述),单周期解码能力增加到了3,也就是说拾取部分的IPC从2增加到了3。为了可以实际发挥它,ARM对Cortex A15的指令分派器与执行管线进行了极大的强化,这也是架构图中变化最大的部分。[p=28, null, center][p=28, null, left]   与Cortex A9的3+1分派不同,Cortex A15的分派器具备8指令分派能力,执行器也从3类4组扩充到了5类8组,额外增加了分支跳转单元和硬件乘除法单元,每一组执行器对应的分派端口都有自己的独立队列。Cortex A9上,VFP和NEON要屈尊共享一个分派端口,A15就成功平房换别墅,各自拥有了独立的端口,吞吐量大大提升。[p=28, null, left]   那么结论是什么?至少从架构上,Cortex A15要远远比Cortex A9先进,两者的设计理念之间差了大约有5年。Cortex A9的架构更接近于老式的,上个世纪90年代的顺序架构处理器,即较少的分派队列、复用的执行管线与简单的多指令并发。当然, ARM在Cortex A9上第一次实现了乱序执行核心,但至少从架构图上看,结果可能也仅仅是支持而已。但Cortex A15不同,在Cortex A15上,才是真正看到了可以从乱序执行中获利的设计,原因很简单,乱序执行的本意是通过打破指令的时间顺序,进而增加处理器硬件资源的利用率。那么就自然需要CPU的分派单元具备足够强大的分派能力和硬件资源,可以尽一切可能去填满所有的执行器,因此体积必然会极大膨胀,最理想的情况就是给每一组执行器都设计一个端口和队列。[p=28, null, left]   对于这一点,Cortex A15做到了,而Cortex A9没有做到。当然这么设计并不是没有代价。乱序执行需要的资源完全不是顺序架构可以比拟的,毕竟计算机程序的指令之间本身就具备逻辑上的先后顺序,再乱序,也只能是执行时的乱序,最终还是需要一定的顺序,这就需要具备额外的硬件资源去记录指令间的相关性以及时间状态。除此以外,为了保证后续指令可以跳过前面阻塞的指令执行,也需要指令队列有足够的容量去保存阻塞的指令。这之间有很多技术细节,会导致功耗的激增,如何在引入乱序执行核心优势的同时尽可能的去压制住激增的功耗,这需要非常高深的设计功力,甚至有时候需要一定的技巧和运气。Intel曾经也在探索新架构的时候跌了大跟头,ARM没有任何理由可以免费得到这种好处,因此Cortex A15也为此付出了代价。至于代价有多大,留到下篇再说。[p=28, null, center][p=28, null, left]   Krait的资料就比较缺乏了,高通一向有保密的传统,所以目前只知道单周期解码能力为3、指令分派能力为4、执行单元一共有7个,仅此而已。但是这已经足够让我们去猜测Krait的设计,关键在于指令分派能力:4,也就是说,Krait的具体架构应当和Cortex A9类似,主要强化的是执行器规模。换句话说,Krait是一个大幅阉割了吞吐量的Cortex A15,或者说是一个大幅提升了“肥胖度”的Cortex A9。原因不用多说,只在省电二字。因此Krait空有接近Cortex A15的3300DMIPS/MHz理论运算能力与3 IPC,却并无法发挥,原因也在这里。单纯增加码头容量和工厂容量,却不提升连接码头和工厂的道路宽度,最终都是白费力气。[p=28, null, left]   分派之后是执行,执行主要靠一组组的运算与逻辑单元构成。相比Cortex A9,A15增加了硬件乘法器和专门用来处理分支的Branch ALU,而且有迹象标明,Load/Store的性能也得到了很大的加强。这些对于某些情况下的应用性能会带来较大的改变,但更为明显的变化其实是在NEON与VFP上。Cortex A15中这两个SIMD ALU不仅拥有独立的端口,内部还实现了双发乱序执行流水线。[p=28, null, center]
[p=28, null, left]   上图就是Cortex A9的浮点运算单元。它的内部实现了管线化架构设计,拥有自己独立的指令队列和指令分派,但是每个周期只能分派一个指令,执行管线也是单发顺序的。虽然图上没有画出来,但是VFP/NEON指令的具体解码在Cortex A9中是在浮点运算单元中实现的,因此相对于其他的执行管线而言,独立性显得比较明显。[p=28, null, center][p=28, null, left]   到了Cortex A15,浮点运算单元被以其他运算器相同的运作方式整合到了处理器的主管线中,具体而言,就是VFP和NEON的指令解码和其它类型的指令一样是在前端指令解码部分直接实现,再由分派器统一分派。再加上内部的双发乱序,Cortex A15的VFP/Neon可以同时执行两条SIMD指令,四个融合MAC运算,运算能力要大大超越Cortex A9。根据现有的资料和实际的运行结果,高通也实现了双发的VFPv4,但是Neon与是否支持乱序则无从判断。可以猜测,Krait的SIMD部分性能可能会弱于Cortex A15。[p=28, null, left]   作为总结,用一张图来简单比较一下Cortex A9、Krait和Cortex A15的执行管线:[p=28, null, center][p=28, null, left]   再好的核心如果得不到数据,也只能停摆,所以缓存是现代处理器设计中一个很重要的部分。多处理器系统的缓存大体上有两种设计思路,一种是每个核心拥有自己独立的缓存,通过外部总线进行一致性维护,例如Pentium D和Atom;另一种是设计一块共享的大缓存,使用总线访问。Cortex A9和A15、Krait都采用了后一种设计,但是细节有所不同。[p=28, null, center][p=28, null, left]   Cortex A9的二级缓存通过外部总线连接到处理器组。可以看到,两颗Cortex A9处理器通过标记为PL310的二级缓存控制器连接到1MB的缓存上。PL310的内部结构如下:[p=28, null, center]
[p=28, null, left]   PL310提供了两个AMBA3 AXI接口,宽度都是64bit。结合之前的架构图,可以得到一个八九不离十的推测,那就是这两个接口一个会用作指令拾取,而另一个则用于访问二级缓存。[p=28, null, left]   这个设计好不好呢?显然是不好的,否则ARM也不会把Cortex A15上的二级缓存控制器直接整合进A15多核心控制器SCU中。这是Cortex A15的一大升级,它的二级缓存不再是一个游离的组件,终于与所有的核心构成了一个紧密耦合的整体。它的好处,后面我们还会详细解释,而它的坏处,我们会在下篇中为大家分析。[p=28, null, center]
[p=28, null, left]   不仅如此,Cortex A15的二级缓存针对多核心访问设计了4个独立的TAG队列,数据的读取和写入由两个不同的接口实现(这里不太确定),还支持直接的CPU到CPU数据传输,这一切都是为了提升多核心下并发访问缓存的性能。Intel曾经说过Cortex A9糟糕的二级缓存性能限制了它的性能,很明显,ARM决心在Cortex A15上改进这个缺陷。[p=28, null, left]   至于高通S4平台,从高通自己提供的核心框图上看,似乎是采用了一整片L2缓存为所有核心所共享,但是nVIDIA在发布Tegra4的时候给出了一张幻灯片,里面对于Krait的L2缓存有非常清晰的说明:[p=28, null, left]   很明显,Krait并没有设计为一体式L2缓存,依然保留着早期Scorpion的每颗核心包含自己独立缓存的架构。这是异步架构特有的问题和设计之一,缓存之间需要靠外部接口进行一致性维持,有效容量仅有总容量/核心,对于Krait而言,不论多少个核心,有效二级缓存永远只有512KB。当然,这样的设计拥有高带宽低延迟的好处,毕竟缓存是私有的,这点在对阵Cortex A9的时候会有一定的优势,但是面对Cortex A15就很难说有什么好处了。[p=28, null, center][p=28, null, left]   到这里大家应该就明白了,认为Krait是类似于Cortex A15架构的说法是不准确的。事实上,骁龙S4的“Krait”架构相对上代Scorpion而言虽然得到了很大的强化,但距离Cortex A15还有一定的距离,甚至说设计上与Cortex A9的亲缘关系更近,看作是“肥胖版”的Cortex A9也许会更合适一些。这样的架构注定很难发挥它的理论性能。同步异步 江湖恩怨何时了
[p=28, null, left]   每次提到高通,“异步多核”甚至“胶水多核”都是一个无法回避的问题。对于这个技术,支持者和反对者都很多,之前的文章也有过一定的介绍。当然,实际上那时的介绍并不准确,不过异步架构在手机上坏处大于好处,这点相信还是很容易理解的。[p=28, null, left]   异步架构的好处是什么?当然是省电。异步架构下的CPU不需要运行在同样的频率,甚至不需要拥有同样的实现,完全可以做到一刻核心运行在1.5GHz的全速下,而另一颗核心只运行在384MHz的最低频下。这样以来,高负载的线程,比如前台应用,就可以工作在高负荷的核心上,而诸如系统后台服务这样的低负载线程就可以工作在低频核心下,系统的能耗比得到最大规模的优化。[p=28, null, center][p=28, null, left]   为了实现这点,高通必须对Linux核心的调度器做修改,因为典型的调度器并不支持非对称调度,它会默认所有的CPU核心具备同样的性能,这会导致低频核心进入严重的阻塞状态,进而影响系统表现。这也是高通称移动领域只有高通做到了这点的原因。[p=28, null, left]   那么异步架构的坏处又是什么?自然是性能。异步架构对于性能的影响在于两个方面,一是异步电路的同步开销,二是非对称调度的调度开销。[p=28, null, left]   不论多么复杂的硬件,深入到最底层,都是功能电路与总线的组合。总线需要协议,协议的基础是时序,因此显而易见的要求就是,连接到一个总线的两个设备之间想要沟通,那么就需要具备同样的时序。换句话说,就是需要拥有同样的频率。这就是同步电路。30年来,同步电路成为了设计领域的主流,围绕其发展的EDA技术也是最成熟的。而异步电路则不同,它拥有一个特殊的“握手协议”,在正式的传输发起之前,会首先利用几个时钟周期的时间进行“握手”,将双方的时序调整到一致。在实际实现中,这个由固化硬件实现的握手协议消耗的时序,根据设计不同在2~4个时钟周期左右,这就是异步电路的同步开销。如果我们考虑最极端的情况,假设真正的数据传输只需要3个时钟周期,那么异步电路的总线利用率就永远不会超过50%,因为至少有一半的时间要消耗在握手上,哪怕两边的频率是相等的。[p=28, null, left]   看到这里,聪明的你应该可以发现问题所在:即便是异步电路,在真正数据传输的时候,依然还是需要两侧时序保持同步,异步握手协议的加入只是做到了通讯发起时双方的时序可以不一致。因此很明显的结论就是,异步总线同一时刻只能与一个设备进行握手。考虑以下状况,如果两个CPU同时向总线发起占用请求,即发起握手请求,而这两个CPU的频率不同,那么很明显,由于时序的不同,任何防止冲突的协议都无法起效,因为逻辑电路的最小工作周期就是时钟周期。因此异步系统里发起握手行为的只能是总线本身,也就是说异步系统里实际上是总线在不断询问CPU是否要接入,而不是CPU向总线要求接入。[p=28, null, center]
[p=28, null, left]   既然如此,异步系统就是一个轮询的系统,这是它的另一硬件开销,尤其是在核心数超过2的系统中,由于轮询必然是有顺序的,那么就必然会遇到某一时刻总线轮询到的是CPU0,而此时需要握手的是CPU3。哪怕CPU1和CPU2都是空闲的,CPU3也必须要等到3个总线周期以后才可以和总线同步。假设同步需要3个周期,而数据传输也只需要3个周期,这就意味着在同步系统里只需要4个周期就可以实现的数据请求,在异步系统里消耗了9个周期。[p=28, null, left]   当然,这里讨论的都是最基础的情况,实际设计中也会有很多的技巧去突破这些限制,但是别忘了,如果把总线协议和接口实现的过于复杂,其本身的耗电量也会增加,因此实际设计中可能并不会引入太多复杂的高级设计,因此这些开销可能全都是存在的。[p=28, null, left]   除去硬件设计导致的开销以外,用于配合异步系统正常工作的操作系统调度器,也会引入额外的开销。对于同步系统的调度器而言,由于它假定所有的CPU均拥有同样的运算能力,因此调度算法的实现非常简单,只需要平衡的把负载分配到各个活动CPU上即可。但是一旦各个CPU之间的频率不同,调度器所需要维护的数据结构就会大大复杂化,因为系统需要尽力去保证异步系统处于异步状态,否则就无法实现异步系统省电的特性,因此就不能平均分配工作符合。尤其是考虑到实际的移动设备里,各个CPU核心的频率都是处在动态变化之中的,因此异步系统调度器的算法会明显复杂得多。我们知道,调度器所占用的是一个系统内两个时间片中间的时间,现代系统中时间片一般取10~100毫秒,Linux核心的时间片大体上是100ms左右,根据任务优先级不同而不同,最短可以到5ms。假设同步系统的调度器执行只需要10us,那么在5ms时间片的系统上所消耗的性能就只有0.2%,但是如果调度器消耗的时间为1ms,那么性能损失就会激增到17%左右,影响十分巨大。当然,在实际系统中不太可能使用5ms时间片,异步系统的调度器也不可能需要花1ms的时间才能完成调度,但是异步调度器的确会占用系统不可分片的时间,带来性能的下降。[p=28, null, left]   至此异步系统的好处和坏处都解释清楚了,那么最后的问题就是,异步系统相对于同步系统而言究竟是好处多还是坏处多,这个问题可以分为两个方面来观察。[p=28, null, left]   首先是用户对于性能的需求。异步系统的省电特性是靠牺牲性能获得的。由于同步开销的存在,异步系统发挥最佳效率的时候是重度计算的情况,在这种情况下,CPU的指令流水线基本处于满负荷工作的状态,而指令拾取与解码往往会因为后端流水线的阻塞而停止。这时对于总线使用率的要求会大大降低,同步开销得以掩盖。但是当用户执行的是轻量级多线程时,由于同步开销的存在,系统的表现会大受影响,因此给人的感觉就是跑分快,实际用却表现不出来,多任务切换的时候甚至会有卡顿的情况,而这正是高通系统的特征。[p=28, null, left]   其次是同步系统也各种有办法减小同步运行的高功耗,其中之一就是对指令流水线引入复杂而精密的时钟门控,在没有指令输入的时候,流水线甚至可以整体关闭时钟,进入彻底的停摆状态,进而降低功耗。这些都是已经成熟的技术,目前大部分CPU设计中都已经实现,因此同步系统和异步系统之间的差异可能并没有看起来的那么大。[p=28, null, left]   总体来说,手机中使用异步系统是一种牺牲性能节省电量的折衷方法,并非是解决性能和功耗问题的唯一途径。很多时候高通MSM平台所宣称的节电效果是来自于CPU、Baseband、Modem等子系统的共同作用。异步就能省电是个巨大的认知错误。内存带宽 不足道却很重要
[p=28, null, left]   在2012年的SoC中,内存子系统也存在着很大的区别,我们来回顾一下。[p=28, null, center][p=28, null, left]   内存的影响这么大?当然。这个问题放在几年前可能的确不那么重要,但现在的智能手机分辨率越来越大、配置越来越好、性能越来越高,所有的内置设备,都要从内存中频繁存取数据。与PC不同,手机的GPU往往并不具备独立显存,因此显存也要占用内存总线,这无疑会进一步加大内存系统的压力。对于这个问题,解决方案就是增加内存带宽,甚至方式都如出一辙,那就是双通道。事实上自双核时代以来,几乎所有的SoC都把双通道作为设计标配。[p=28, null, left]   为什么说几乎?那自然是有例外,事实上一共有三个,第一个是Tegra2, 第二个是高通S3,第三个则是Tegra3。nVIDIA独中两元。[p=28, null, left]   内存带宽是一切的基础,可以说在过去、现在和未来,带宽都是越大越好。Tegra3虽然只配备了单通道内存,但是种种迹象显示,Tegra3的内存控制器支持的工作频率非常高,官方提供的数据是LPDDR2 1066MHz,即便是以32bit的单通道,单向带宽也达到了4.2GB/s。但是Tegra3系统中内存实际运行的频率不得而知,但是从测试结果来看,应当不会比1066MHz低多少。[p=28, null, center][p=28, null, left]   而根据官方提供的资料,高通的APQ8064虽然支持双通道LPDDR2内存,但它的内存频率仅仅运行在等效533MHz下。这样的内存系统,带宽和Tegra3是一样的,同为4.2GB/s。[p=28, null, center][p=28, null, left]   双通道是用于提升带宽的但同时也会增加延迟,如果双通道系统的频率过低,就像APQ8064,那么这样的系统其实反而会影响性能。我们不可能保证需要读取的数据永远位于两个不同的控制器下,因此低频双通道整体上的延迟要比高频单通道高得多,即便考虑到时序,影响也可能会在20%的水平上。[p=28, null, left]   至于Exynos 4 Quad,它的内存子系统是双通道LPDDR2 800MHz,因此拥有最大的带宽——6.4GB/s,平均延迟则和Tegra3接近。所以在这三款CPU之中,Exynos 4 Quad的内存性能是最好的。[p=28, null, center][p=28, null, left]   不过随着性能的进一步提升,到最新这一代产品,也就是骁龙600/800、Exynos Octa、Tegra4,最终还是都配置了双通道内存控制器,而且全都升级到了LPDDR3。虽然速度还有区别,但至少不需要纠结双通道与否了,至于它们的具体性能,我们会在下篇中介绍。功耗设计 究竟谁是好男人
[p=28, null, left]   放松一下。在微博上曾经流传着一个段子:高铁停电了,第一批人在寂寞中抬起了头,那些都是苹果用户。紧随其后,Android用户也抬起了头,忧郁地看着窗外,而此时,诺基亚的用户还在用手机放着月亮之上。这当然不是吐槽现阶段手机续航的唯一段子,还有一个段子说的是,每一个用Android手机的男人一定都是好男人,因为他们必须每晚准时回家——充电。不可否认的,强大的性能,带来的副作就是不强大的续航,这已经成了很多手机玩家心头挥之不去的痛。指望电池技术一朝突破不太现实,那么唯一的办法就是想办法尽量少用点电。第一回合里我们介绍了工艺,很显然,Exynos 4 Quad、Tegra3、APQ8064采用了三种不同的工艺,自然也会产生不同的功耗。大家都说自己很省电,因此我们只好用测试来决一高下了。[p=28, null, center][p=28, null, center]频率和功耗相关性曲线[p=28, null, left]   这一节的功耗测试主要来源是互联网,因此对于数据本身是否足够精确、足够公平,各位可以不用太过于考究,权当定性研究吧。[p=28, null, left]   首先是Tegra3,因为nVIDIA比较慷慨,在Tegra3的白皮书中给出了功耗对比。Tegra 3的整个CPU部分工作在1GHz频率下的功耗大约是1.26W,而Tegra3的实际产品运行频率是1.5GHz,这个频率下的功耗nVIDIA并没有提供,我们只能根据经验来预估。由于Fast G工艺的漏电比例较大,因此Tegra3在1.5GHz下的功耗可能是在2.5W~3W左右。考虑到Tegra3的几乎整颗芯片都用的是40nm Fast G工艺制造,因此也可以猜测在其它通用硬件上,Tegra3的功耗会相对大一些,再加上nVIDIA一贯有标低不标高的“优良传统”,因此这样的估计应该不会相差太远。[p=28, null, center][p=28, null, left]   当然,Tegra3有一个LP工艺制造的伴核。但是这个伴核更多是用于在待机时避免Fast G工艺的高漏电而设计的,对于正常使用的贡献并不大。[p=28, null, left]   GPU方面,由于完全没有任何可以参考的资料,所以究竟功耗多少,只能从实际使用续航中加以猜测。根据我们和广大用户的实际使用体验,Tegra3手机的游戏续航时间都不会太长,我们推测Tegra3的GPU功耗应当在1W左右,也就是说整颗Tegra3芯片在CPU和GPU满载的时候,功耗大约在3.5W左右(该数字并非官方提供,仅供参考,而且实际也很难做到同时满载,这样的数字只是为了一定程度上方便比较)。[p=28, null, center][p=28, null, left]   看完了Tegra3,再来看看Exynos 4 Quad。这颗芯片的详细功耗数据三星并没有提供,但我们知道同样工艺的双核版Exynos 4 Dual 32nm的信息,这来源于三星官网上的一段介绍视频。[p=28, null, left]   在图上可以看出,1.5GHz的双核Exynos 4 Dual 32nm的CPU部分功耗大约是在1W左右,每颗核心大约500mW。而Exynos 4 Quad的工作频率为1.4GHz,因此估计的功耗大约会是430mW,也就是说四核心的总功耗在1.7W左右,相对于Tegra3而言至少低了30%。[p=28, null, left]   猎户座的GPU部分功耗图中也有所体现,45nm工艺下,运行频率为266MHz的Mali400 MP4的功耗大约是105mW,由于Exynos 4 Quad的GPU运行频率大约是400MHz,因此经过估算功耗大约在160mW左右。至此,Exynos 4 Quad的CPU+GPU最大总功耗就可以计算出来了,大约是在1.9W左右。[p=28, null, left]   最后是APQ8064。相对于前两者的频繁估计不同,由于高通提供了MSM8960(与APQ8064拥有同样的核心)的开发平台,因此各项功耗都可以轻松直接测量。虽然功耗随着频率和负载的波动变化很大,但当工作在1.5GHz时,Krait CPU功耗大约是在700~750mW,因此APQ8064如果四核满载,消耗的功率也将达到3W左左右,与Tegra3不相上下。[p=28, null, center][p=28, null, left]   由于MSM8960的GPU是Adreno225,因此GPU功耗无法直接和APQ8064比较,这点比较可惜。但是即便如此,MSM8960的GPU功耗也已经高到难以置信,最高达到了1.6W,平均而言也有1.1W左右——几乎是Exynos 4 Quad的七倍。由于从规模上说,Adreno320和Adreno225相比有着翻倍的提升,而制造工艺完全相同,虽然考虑到微架构的提升可能可以带来一定的省电效果,我们还是很难相信Adreno320的功耗会低于2W。[p=28, null, center][p=28, null, center][p=28, null, left]   在第一回合的结尾,我们提到过,高通没有选择最先进的28nm HPL HKMG工艺,可能会对产品的功耗表现产生一定的负面影响,在这里我们可能已经看到了结果,拥有HKMG技术加持的Exynos 4 Quad在三大旗舰平台的功耗里是最小的。 Tegra3由于伴核的存在,实际使用中的功耗比较难以估测,但如果是极限情况下则明显不容乐观。APQ8064的全满载功耗无疑是上一代四核平台里最高的,但是由于在实际产品中,各个制造商都会主动降低这款SoC的工作频率(尤其是GPU),因此实际功耗应当介于前两者之间。毫无疑问,最容易让手机变成好男人的是Tegra3。拒绝纸上谈兵 实测数据对比分析
[p=28, null, left]   对于普通读者而言,长篇大论的理论分析肯定是很乏味的(技术宅另当别论),看到这里,相信大家也都累了。虽然理论上里里外外、反反复复的比了个遍,但是毕竟实践是检验真理的唯一标准,作为2012年旗舰的这三颗处理器究竟孰优孰劣,还得经过实际测试才能知晓。因此,我们整理了Anandtech、Arena等数家国外权威媒体的测试成绩,尝试一下通过分析结果来验证一下理论分析的结论。当然,这些测试的环境是否一样无法考证,所以实际上这个对比并不严格。毕竟只是回顾而已。[p=28, null, left]   需要注意的是,因为各种原因,有些测试程序的参考价值有限,如Neocore、Nenamark v1和Vellamo。对于这类测试,我们决定直接忽略。[p=28, null, left]   首先我们来看一些理论性能测试,作为对比,我们在图表里加入了上上代产品,1.2GHz的Exynos GHz的MSM8260。Linpack是出厂率比较高的测试之一,靠求解线性方程组来测试系统的浮点运算能力。[p=28, null, center][p=28, null, left]   APQ8064取得了压倒性的领先,主要是源于VFPv4,而A9和Scorpion只有VFPv3。浮点运算性能在现阶段的实际应用中体现的较少,因此这项测试的实际意义可能更多是体现在未来。比较有趣的是,Exynos 4 Quad虽然频率更高,但单线程性能却不如Exynos 4210,这也许就是受到了前文提到的处理器子系统带宽问题的影响。[p=28, null, left]   接下来是几乎逢评测必测试的兔子跑分。这是一个综合测试项目,我们先来看总分,再慢慢分析。[p=28, null, center][p=28, null, left]   APQ8064是三大四核平台里分数最高的,其次是Exynos 4412,再次是Tegra3。双核和四核在这里体现出了差距,但是我们还需要来仔细看一下单项得分。[p=28, null, center][p=28, null, left]   内存的结果比较有趣,虽然Exynos 4210和Exynos 4 Quad拥有同样内存配置,但得分只有后者的一半都不到,似乎Exynos 4 Quad内存到CPU的连接的确比较高效。但是若只看四核平台,又会发现对于高通平台而言,浮点和整数的性能落差要明显大于Cortex A9。这也许就是异步架构的开销,毕竟安兔兔的浮点并没有使用VFP加速。[p=28, null, left]   整数部分的差距体现的是双核和四核的差距,虽然Krait拥有架构的优势,但这通过之前的架构分析我们可以找到原因,那就是因为不论是Krait、Cortex A9还是Cortex A15,整数运算器都只有两组,因此执行能力的确没有太大的区别。
   CF-Bench也是一个理论性能测试软件。这里我们也来对比一下测试成绩。[p=28, null, center][p=28, null, left]   基于同样的理由,在以整数计算为主的Native性能方面,大家的单个核心同频性能基本是差不多的,只是APQ8064的成绩要明显比Tegra3和Exynos4412差,这可能也是由于异步开销导致的。但令人惊奇的是,Krait的Java性能要远远好于其它两款四核平台,不仅相对于前一代Scorpion有超过两倍的飞跃,甚至比所有的四核Cortex A9都高。这个结果比较出乎意料,也许是因为Krait引入的额外执行器在起作用,不论如何,这样的结果意味着在纯Java的应用中APQ8064会有很大的优势,甚至要比四核A9更好——唯一的问题是运算密集型的纯Java应用正变得越来越少。当然也不是没有,下面我们就要来看一个。[p=28, null, left]   Quadrant测试向来是热门测试之一,它就是一个纯Java的测试,正好可以检测一下Krait超高Java性能的效果。这里收集的是支持多核心的V2版,由于总分受IO影响过大,我们只看CPU和内存。[p=28, null, center][p=28, null, left]   靠着超高的Java性能,APQ8064在这个测试里取得了压倒性的领先。[p=28, null, left]   理论性能测试就到此为止,我们下面来看一下实际环境模拟的测试。首先采集的是Smartphone Benchmark 2012中反映CPU性能额Productivity项。[p=28, null, center][p=28, null, left]   APQ8064无法找到测试成绩,不过从MSM8960来看,成绩应当与四核Cortex A9是同一水平。Tegra3在这个测试里出人意料的取得了第一名,1.5GHz的主频应当功不可没。[p=28, null, left]   浏览器测试也是实际应用中很常见的项目,我们先看看Sunspider。[p=28, null, center][p=28, null, left]   时间越短越好,不过从双核A9、双核Krait到四核A9,相对来说差距并不大。因为SunSpider测试的成绩主要受到浏览器JS引擎的影响,与系统层面的优化关系密切,因此差距不大是可以理解的。[p=28, null, left]   接下来是BrowserMark:[p=28, null, center][p=28, null, left]   BrowserMark的结果很有趣,Exynos 4412一枝独秀,APQ8064紧随其后,除此以外,其它平台基本处于同一水平,更有趣的是不论Tegra3还是MSM8960,都不如上上代的Exynos 4210,这说明三星在软件上针对浏览器进行的单独优化效果远超其他厂家,两代亲儿子真不是白做的。[p=28, null, left]   最后来看看3D性能。首先登场的自然是大名鼎鼎的GLBenchmark。2.1版本的Egypt场景使用了大量的Shader,尤其是Pixel Shader,比较看重GPU进行像素处理的能力。为了避免分辨率的影响,我们采集的是720p Offscreen的数据。[p=28, null, center][p=28, null, left]   Adreno320凭借超高的硬件规模,总算在这个之前不擅长的测试里取得了第一。[p=28, null, center][p=28, null, left]   GLBenchmark2.5中,开发商重新设计了所有的模型和效果,提升极为明显,尤其是模型,细腻光滑,显然包含了数量众多的三角形。这个测试里Adreno320依然一马当先,领先第二名33%。当然,其实大家跑的成绩都不怎么样,2.1理动辄100FPS+的成绩相比,最高的APQ8064也仅仅拿到了20FPS而已,可以说都惨不忍睹,只是惨的程度而已。[p=28, null, center][p=28, null, left]   安兔兔跑分的3D部分在3.0之前一直都过于简单,无法压榨顶级GPU的水准。因此开发商在3.0版本引入了一个全新的3D测试场景,我们来看看这个场景的表现。[p=28, null, left]   可以看到一旦复杂度提升,Mali400 MP4的性能就会大幅下跌,同时Adreno系列就会得到极大的优势。在兔子跑分V3中,配备APQ8064的手机总分远高于其他产品,几乎完全都是GPU的功劳。[p=28, null, left]   最后则是最新发布的,大名鼎鼎的老牌3D测试软件3DMark。在支持了移动设备之后,大家总算有一个相对公平的比较平台,虽然对于桌面系统而言,区区DX9水平的测试早就是淘汰级别,但我们也没有更好的方式。根据之前越复杂高通越强大的规律,3DMark中高通应该也拥有很大的优势,那么实际情况是怎样呢?[p=28, null, center][p=28, null, left]   这究竟应当用“惨不忍睹”形容Exynos 4412,还是应当用“惊为天人”形容Adreno320?在3DMark的压榨下,Adreno320爆发出的性能几乎是其他四核平台的三倍,成绩已经接近2007年的低端入门级笔记本独显8400M GT。能耗比和同频性能的初步探究
[p=28, null, left]   和以往测试性能不同,由于存在两种架构和两种核心数,所以这次我们尝试更加深入一点,去计算了一下三大旗舰平台在不同项目中的能耗比。除了Linpack以外,我们假定在测试中各个平台的功耗均处于最大,数据采用之前的结果。MSM8260的功耗之前并未提及,根据估测应当在650毫瓦左右。首先比较的是CPU部分的性能功耗比,这里用MSM8960的性能作为单位1。[p=28, null, center][p=28, null, left]   然后是GPU部分。[p=28, null, center][p=28, null, left]   综合来看,Exynos 4412在上一代四核平台中能耗比是最高的,其次是MSM8960,当然这是一颗双核SoC。APQ8064在绝大多数情况下,能耗比都要比Exynos 4412低不少,而性能和对方差距也不大,这意味着两者的使用体验会比较接近,但APQ8064的发热会远大于Exynos 4412。当然厂家可以靠降低运行频率、设置更严格的温度控制阈值来控制功耗,但是这样一来性能会受到较大影响。总体来说,APQ8064有些空有一身力气却因为吃不饱而无法发挥的感觉。[p=28, null, left]   GPU则对高通而言不太妙,因为差距已经大到难以理解。Tegra3由于采用的是落后的40nm工艺,能耗比不理想是可以理解的,但S4已经采用了28nm工艺(虽然工艺细节比较落后),再考虑到架构上的巨大优势,能耗比却大幅度落后。当然,在最新的测试中,Adreno320的性能有绝对的领先优势,但是这样的优势不足以抵消其超过2W的功耗。考虑到实际的应用状况,即便是遇到必须要Adreno320才可以流畅运行的游戏,Adreno320也会因为功耗过大而不具备实际的使用价值。如何解决能耗比问题,是高通的一大难点。[p=28, null, center][p=28, null, left]   Adreno320的规模之大,为移动领域少有,根据某些渠道的消息,Adreno320占用的硅片面积大约是30mm2左右。根据路线图,年底将要上市的骁龙800会配备规模更大的Adreno330,性能将会进一步提升50%,但假如高通无法提升自己GPU的效率与能耗比,只是一味的去“堆”运算单元,即便最终可以获得强大的性能,这样的提升也会变得毫无意义,毕竟便携设备靠电池供电,不可能允许功耗无限制地增大。我们实在不敢想像在小小的手机里有着一颗功耗接近3W的GPU是怎样的感觉,唯一可以确定的是,如果真的存在这样一个GPU,在99%的时候它都不可能运行到哪怕一半的设计性能。[p=28, null, left]   算过了能耗比,我们再来算算同频性能。对阵的是Cortex A9与高通新老两代核心Krait与Scorpion。[p=28, null, center][p=28, null, left]   从结果可以看出,骁龙S4的Krait核心在整体的执行性能方面和Cortex A9互有胜负,并不像某些文章中所说,“远超Cortex A9,与Cortex A15同级”。领先较多的三项中,Linpack源于Krait更高版本的VFP处理器,真正有实际意义的是Java性能,这点可能会在实际使用中带来很大的区别,但异步架构又可能会对性能表现带来负面影响,所以总体而言,Krait与Cortex A9的关系更多类似于“基本持平”而并不是“远远甩开”。这个结果对高通而言可能有些沮丧,毕竟高通奉行的是两年一升级的策略,骁龙S4在自己生命周期的起始阶段无法彻底击败上一代架构的对手,随着今年正统Cortex A15产品的陆续上市,Krait核心届时也许会变得更加被动。[p=28, null, left]尾声:疯狂时代的最后演出?[p=28, null, left]   通过这篇回顾,我们对于过去的2012年里大放异彩的移动四核产品算是有了一个清晰的概念,同时也对于移动产品的一些架构和技术有了一定的了解。2013年已近过半,高通已经拿出了最新的骁龙600,nVIDIA的Tegra4也蓄势待发,而三星则拿出了史无前例的八核处理器Exynos Octa。在未来的半年内,ARM阵营还会有骁龙800和Tegra4i陆续到来,Intel则会祭出全新Silvermont架构的新一代ATOM处理器以取代老迈的Saltwell——后者的架构自推出以来就几乎未曾更新,但即便如此,依然具有与Cortex A15一战的性能和Cortex A9级别的功耗。甚至一向对移动市场不太热衷的,都会推出设计功耗只有3.9W,基于Jaguar核心的Temash嵌入式处理器。看起来移动领域的军备竞赛还将继续下去,至少2013年不会是终点。[p=28, null, center][p=28, null, left]   但是再往后呢?攀升的性能与功耗,与发热和续航之间的矛盾正在一天天激化。从07年开始,我们经历着手机从三天一充,到一天三充,到今天甚至出现了永远都无法全速工作的“顶级手机”。面对这个局面,手机厂家却依然锲而不舍地升级新硬件,消费者也还在孜孜不倦地追求最多的核心与最高的频率。这样的现象正常么?恐怕很难如此认为。这是一个疯狂的时代,毁灭可能会发生在最辉煌的一刻,而那一刻可能就在不远的将来。[p=28, null, left]   那么刚刚上市与即将上市的最新一代手机究竟会发展成怎样?最新的硬件到底能给我们带来什么?这个产业的未来会是怎样?这都是我们需要思考的问题,也都是下篇将要探讨的问题。我们享受着科技进步带来的好处,也在为科技进步的副作用买单。我们推动着市场从无到有,也推动者市场从理性到疯狂进而毁灭。消费者的欲望是无限的,而消费者的理性是有限的,这才是一切问题的根源所在。移动产业何去何从?会不会像PC一样进入百足之虫死而不僵的地步?时间会告诉我们一切,我们姑且拭目以待。[p=28, null, left]什么是技术所无法改变的事物?对于智能手机而言,一是客观存在的物理定律,二是人的生理需求。因为本文的主题是处理器,因此我们把目光集中在处理器系统上。   可以确定的是,只要技术还没有进步到手机可靠意念操作,那么人体对设备温度的可以接受上限就是确定的;而只要手机还符合物理定律,在一定温度下它所能散发的热量也是固定的(不考虑主动散热,例如内置风扇),这就勾勒出了一条“生死线”——在舒适的前提下,一个确定尺寸的手机,所采用的硬件功耗,或者说处理器系统的功耗是有极限的,只要超越这条线,就必须要降低工作频率,否则将会无法阻止温度的上升,性能自然也就无从谈起。因此我们认为,“手机的极限功耗不应该超过其最大可散热功耗”可以作为衡量产品的准绳。(Galaxy S4发热量测试,本表格数据来自太平洋电脑网)   长久以来,业界都习惯于用配置和价格的关系作为评价标准,但是如果联系到配置与性能脱节的现实,这个标准已经濒临失效,因此我们需要提出一个新的评判标准,不妨姑且将其称为“体效值”。   何谓体效值?我们将体效值定义为设备体积与能耗系数的乘积,它代表了一台手机所可以连续提供的极限性能。将这个参数与理论最大性能联合评价,能得出以下的结论:如果系统的体效值小于最大性能,那么这套系统就必然是错误的,因为存在着浪费。但是如果体效值大于最大性能,那么这套系统有可能陷入“性能不够用”的疑问。最佳情况是体效值和最大性能相同,这意味着这套系统所蕴含的性能可以全部发挥,做到了设计可以得到的极限。你可以把“体效值”简单理解为“每瓦特性能”。任何一台手机机体,在有限的时间段内带走热量的能力都是有限的   手机绝对性能的测量相对简单,因此体效值中最关键的部分是“体”,即手机体积所能容纳的最大功率。这方面目前没有明确的行业标准,因此我们需要做一些假设。首先,我们假设在现在以及将来的一段时间内,手机将主要依靠外壳进行被动散热,不会像电脑一样引入风扇等主动散热手段。其次,我们将人体感温度舒适上限设为40度,而耐受极限设为50度。最后,我们将手机工作时环境温度设为25度,并且假定没有气流存在。   无外界对流时,手机的热量散发主要依靠空气的自然对流与本身的辐射。假定手机的温度为介于舒适上限与耐受极限之间的45度,那么与环境温度的差值即为20度。相对于手机这个体积的设备而言,四个边侧面的散热贡献可以忽略不计,主要的散热面为前后两个面。计算时假定手机为垂直放置。   下面计算开始,首先计算对流散热量,我们选择iPhone 5作为标准对象。iPhone 5的尺寸为123.8×58.6×7.6毫米,因此正面的面积为0.0073平方米。垂直放置的情况下,iPhone 5一个正面的传热系数为4.65W/(m2?℃),也就是说这样一个表面可以靠对流散发的热量是0.68W,由于有两个表面,因此靠机身自然对流可以散发的热量为1.36W。考虑到还有侧边的存在,我们可以认为这个功率是1.5W。   接下来计算辐射热量。由于iPhone 5的材质是铝合金和玻璃,氧化铝合金的辐射率大约在0.3左右,而玻璃的辐射率大约是0.85,因此整体辐射率取0.6,那么在外壳温度整体为45度的时候,靠辐射可以散发的热量经过计算大约是1.16W。   也就是说,一台通体45度,垂直置于静态25度的环境中的iPhone 5,可以散发的热量极限是2.66W。实际环境中,考虑到用户体验,手机不会也不可能做到整机均匀发热,这无疑会降低手机的散热能力,但由于人体与手机的接触也可以带走一定的热量,因此两者互有增减,相信整体的散热功率不会与计算数值差距过大。因此,大约2.66W就是iPhone 5所能承受的最大整机功率(这里直接使用了整机功率,这是因为目前电子产品除了天线部分以外,消耗的电能绝大部分都转化成了热量,耗电量和发发热量基本相等)。
   曾经广为流传的两个手机CPU温度测试视频:http://player.youku.com/player.php/sid/XNDg3MjE3MDcy/v.swfhttp://player.youku.com/player.php/sid/XNDg3MjE2NzQ4/v.swf   再来看看Galaxy S4。由于计算的方式是相同的,因此过程就不给出了,唯一的不同是,作为塑料外壳的Galaxy S4,在热辐射效率上要远高于铝合金的iPhone 5,具体来说在0.9左右(看来塑料机还是有一些好处的)。结果直接给出,Galaxy S4在同等条件下的散热量为4.15W。   Galaxy S4旗舰安卓手机的代表,因此更大尺寸的机器我们就不计算了。结果显而易见,对于iPhone 5这种尺寸的手机而言,系统的极限功率是2.66W,而Galaxy S4尺寸的产品则为4.15W。体积处于两者之间的产品,散热能力则介于它们之间。至此,体效积中的体就已经有了结论。因为这个参数是不会因为技术提升而改变的,所以它可以作为我们判定未来新技术与新可能的良好标准。也就是说,对于一台5寸手机而言,我们可以得到的最大性能就是4.15W×每瓦特性能,不论这台手机的理论性能有多么强大。换句话说,只要一台5寸手机的整机最大功耗超过了4.15W,那么我们就一定可以判定:它的性能无法发挥。   进一步的,对于一台手机而言,屏幕所占据的功耗大约从4寸的1.2W到5寸的1.8W不等,因此我们可以得出,极限散热功耗中,留给CPU、GPU、内存等计算系统的功耗上限,对于iPhone 5尺寸的手机而言是1.5W左右,对于Galaxy S4尺寸的手机而言是2.5W左右。   需要说明的是,在计算散热量时,我们所关注的对象是手机外表面,至于内部是如何传热的,对结果不会有影响。可能你会存在疑问,某手机内含热管,某手机拥有石墨散热膜,散热要好得多——这是错误的,辅助散热措施只是增加了手机内部的热传导效率,最终效果是提高手机整体的温度均匀性,而我们在计算的时候已经假定了这个数值是100%,也就是内部热传递设计为完美状态的极限结果。   至此,我们可以对智能手机“核战争”带来的问题给出一个精确的描述:由于近年来手机配置的疯狂提升,导致手机的最大性能已经超越了体效值。这个前提下,任何理论性能的提升都是纸面的,功耗已经成为了一堵不可逾越的墙。在可以预见的未来,如果我们希望继续提升手机的性能,那就只能在能耗系数上下功夫。OK,带着这个结论,让我们来重新审视一番市面上的主流手机处理器。产品审查:高通骁龙800
   首先我们来看一看高通。之所以首先观察高通,是因为相对而言高通的产品是变化幅度最小的,因此我们可以借用的历史数据就最多。在成文时,高通的最新产品是S4 Pro APQ8064。而在我们撰写本文时,高通重新命名了它的产品线,S4 Pro有了继任者骁龙600。这是一颗和APQ8064区别很小的芯片,最大的提升在于内存从双通道LPDDR2 533变成了双通道LPDDR3 1066,因此我们不打算深究这颗芯片。   高通的重头戏,以及下半年乃至明年的主打,将是骁龙800。它拥有改进后的Krait 400核心,主要改动是调整了内部缓存架构,降低异步设计带来的影响。同时,骁龙800引入了HPM工艺,主频达到了2.Hz,成为手机SoC中的一个超过2GHz大关的产品。除此之外,骁龙800还集成了新的Adreno 330 GPU,性能与规模再次翻倍。骁龙800核心照片   相信看过之前的文章后,现在的你已经不会被上面充满诱惑力的宣传所击倒。是的,我们再次重复一遍:绝对性能的提升没有意义,决定用户体验的是体效值,或者说每瓦特性能。那么骁龙800的每瓦特性能有没有提升呢?   首先我们来看一看CPU部分。由于缓存的增强,Krait 400核心的执行效率必然会得到一定的提升,但是Krait核心从本质上来说依然是一个“增肥”版的Cortex A9,它所面对的最大问题其实是由于指令队列的不足,导致架构的IPC受限。   Krait的后端就像是规模巨大的工厂,而经过持续的升级,Krait的前端已经从小港口变成了大型码头——但是连接它们的依然只是一条省道。这样的架构也许可以在理论测试中获得极高的成绩,但是在实际变幻莫测的应用代码面前,往往无法发挥应有的效率,根据某些第三方测试,在诸如视频解码、文件压缩与解压缩等应用中,Krait 300核心的同频性能有时会不如Cortex A9甚至A7。这虽然不足以定性的给这个架构下结论,至少也可以说明一部分的问题。文件压缩速度,骁龙600的Krait 300内核同频性能甚至不如Cortex A7   因此,综合来看,Krait系列核心的能耗,恐怕是比较悲观的——上篇中我们做过相应的比较,得到的数据也倾向于支持这样一个结论。APQ8064的执行效率并不如Cortex A9,Krait 400核心虽然经过了两次升级,但是考虑到Krait 300的实际表现,我们认为其执行效率至多只能达到略高于A9的水平。也就是说,Krait 400架构效率上并没有大幅超越Cortex A9。   那么产品效率呢?在这之前笔者需要稍微岔开一些话题。不知道你是否发现,我们在对比效率的时候往往都会和Cortex A9相比,准确来说是和SAMSUNG Exynos 4412相比。为何要用它作为基准?这并不是因为偏心或是对于三星有着额外的好感,原因很简单,那就是根据之前我们对手机极限功耗的定义,在那样的功耗限制之下,Exynos 4412是体效值与绝对性能之间最接近的产品:Exynos 4412的核心,工作在1.4GHz时单颗功耗约为440mW,1.6GHz约为600mW,总功耗即为1.8W与2.4W。因此Exynos 4412是一个极好的标准——如果有产品的效率比4412高,它就可以发挥出比4412更加优越的实际性能,否则就只能在降频中工作。来自Anandtech的测试,骁龙S4 APQ8064单个核心的功耗大约是700mW   在骁龙800以外的产品中,高通采用的是28LP SiON/Poly工艺,这会导致漏电增加,继而降低能耗比。在上篇中我们引用外媒Anandtech的结论,得知28LP工艺的骁龙APQ8064,运行在1.5GHz的频率下,单个核心的功耗大约是700mW。   而到了骁龙800,高通终于引入了先进的HKMG技术,将工艺更换为了28HPM。那么,这个工艺是否能提升骁龙800的能耗比?根据TSMC对于28HPM的工艺描述,我们认为这个答案同样也许是比较悲观的,因为28HPM本质上是用来提升性能的工艺,它的主要目的是让骁龙800得以运行在使用28LP的骁龙600所无法达到的高频下,但是处理器本身的漏电并不会因此而减小。台积电四种28纳米工艺的区别   我们粗略估计,运行在2.Hz下的Krait 400核心,即便只考虑频率的提升,单个核心满载的功率也将超过1W,四核心的总功耗则会远超2.5W的散热功耗上限。至于能耗比,在低频段,骁龙800的能耗比也许可以略超龙600,但是总体来说我们并不认为骁龙800在CPU部分的能耗比会大幅领先于Cortex A9,也就是说骁龙800的体效值将明显小于极限性能。   按照我们之前的分析,骁龙800在手机上的长期性能表现就将不会比Cortex A9提升太多(短期性能表现,例如基准测试,会因为设备的热容以及温度滞后效应而大幅提升,但是只要工作足够长——不超过三分钟——的时间后,性能将会降低到Cortex A9水平)。   使用工具监控骁龙APQ8064的CPU频率变化,运行2分钟以后,CPU频率降低到了1GHz以下使用工具监控骁龙600的CPU频率变化,Krait 300核心根本无法维持全速工作   那么GPU部分呢?这方面的问题可能会比CPU更加严重。高通Adreno 300系列GPU的超低能耗比已经是众人皆知的问题,其严重程度远超CPU。由于GPU相对于CPU而言是低频大规模电路,因此它对于漏电的敏感程度要远高于CPU,对于频率的敏感程度则不如CPU。骁龙800所集成的Adreno 330相对于Adreno 320而言规模提升了一倍,因此功耗的提升幅度自然也不会小到哪里去,我们假定Adreno 330可以借助HPM工艺,完全避免功耗的提升,它的能耗比能有多高?   对于这个问题,我们可以通过一个粗略的测试来判断。Galaxy S4和配备了骁龙600的手机,在3Dmark中的得分基本是相同的,但是根据耗电量得出的整机功耗估值方面,Galaxy S4所具备的SGX544MP3 GPU的功耗几乎只有Adreno320的15%甚至更低,换句话说就是SGX544MP3的能耗比几乎是Adreno330的7倍——实际上,根据粗略测试的结果,Adren 320的功耗已经达到了大约6W,不论这个数字是否精确,Adren 320早已远远超过了2.5W,甚至4.15W的散热功耗极限。性能翻倍dreno 330即使维持功耗不变,也将和CPU一样,在实际工作中也将永远不可能发挥出其最大性能,它的体效值同样远远小于理论最大性能。   最终,我们对于骁龙800的预期表现是比较悲观的。我们认为,在CPU部分,配备骁龙800的产品,并不能让用户得到远超四核心Cortex A9——如宣传、测试以及参数上那样——的实际体验,而GPU方面则更会远远不如SGX544MP3,不论理论测试有多么强大。骁龙800并没能有效提升能耗比,因此装有骁龙800的产品,其体效值将远远小于宣传的性能,作为结果,消费者购买的大部分参数和数字,将会永远停留在纸面上——当然,还有基准测试软件里。产品审查:Tegra 4与Tegra 4i
   虽然都属于Tegra 4家族,但是实际上Tegra 4和Tegra 4i的核心并不相同:前者基于Cortex A15,而后者基于改进版Cortex A9。对于后者我们不会多加论述,我们将主要关注前者。   如同Tegra3,Tegra 4也引入了nVIDIA自行设计的vSMP 4+1技术。因此对于Tegra 4的效率分析,将会分为两个部分:4核部分与附加单核部分.   首先是4核部分。Tegra 4的所有核心都是典型的Cortex A15架构,工艺使用了TSMC 28HPL,因此对于这一部分的分析我们可以找到一个极好的参照物,那就是Nexus 10所配备的Exynos 5250。后者是一枚双核Cortex A15、32nm HKMG LP工艺、工作频率1.7GHz的SoC。根据已有的测试结果,Exynos 5250的CPU功耗为4W,也就是说单核功耗为2W。这项对于Exynos 0mW而言是一个相当大的数值,这也意味着Cortex A15的性能必须要四倍于Cortex A9,才可以维持效率的一致。NV做到了吗?很明显,也很遗憾,没有。Cortex A15的性能提升幅度远远没有功耗提升幅度大,两者之间的差距导致了Cortex A15的每瓦特性能相对于Cortex A9来说有着至少一半的下降。采用A15架构的Exynos 5250单个CPU核心功耗约为2W,数据来自Anandtech   那么回头来看看Tegra 4。由于核心是相同的,我们只需要对比工艺。TSMC 28HPL相对于三星32nm HKMG LP,究竟有没有性能和漏电方面的提升我们很难判断,但是大体上两者属于同一时代的同一水准工艺,相信差距并不会过大,我们假设台积电的28LP工艺总体能耗比三星降低30%——这已经几乎是同一代工艺可以存在的最大差距——这也远不足以抵消Cortex A15和Cortex A9近乎200%的差距,更何况Tegra 4的主频高达1.9GHz,这进一步降低了它的功耗可以低于2W/核心的可能性。这也就意味着,即便只有一颗核心工作,Tegra 4的功耗就已经逼近了4寸手机的散热功耗极限,而四核同时工作,如果不加限制,CPU部分的总功耗必将轻松突破8W。Tegra 4功耗有多大NV很清楚,所以给自家的Shield游戏机装上了风扇!   既然能耗比如此之低,那么技术有何改变、理论性能有何提升、在哪里提升就完全没有意义了。在手机上,Tegra 4的四枚Cortex A15所能发挥出的长期性能,除了极少数情况下,可以几乎肯定的说,将远不如一个设计优秀的四核Cortex A9处理器。   那么辅助的拌核部分呢?NV没有公布拌核的细节资料,我们假设它工作在1GHz,由于HPL工艺带来的低漏电,预计可以让这枚核心的功耗降低到0.6W左右,大约等同于一颗1.6GHz的Cortex A9。在这个工作条件下,Cortex A15的能耗比和Cortex A9比较接近,因此它们具备了接近的体效值。但是此时的Tegra 4,绝对性能只有四核Cortex A9的四分之一,体效值远远高于绝对性能,这也就意味着此时的Tegra 4会因为过慢而无法满足用户需求。伴核要想省电,必须工作在更低的频率   综上所述,Tegra 4不论在哪个模式下,所能提供的最大性能都难以超越四核心Cortex A9处理器,把这样一颗处理器做进手机唯一的意义也许只有一个——想方设法让手机坚持满载运行三分钟,跑出一个惊世骇俗的基准测试分数,给手机发烧友作茶余饭后跑分攀比的资本,就好比购买超级跑车上下班,除了炫耀以外没有任何意义。   至于Tegra 4的GPU部分,由于目前资料较少,所以无法给出分析对比,希望读者海涵。   当然我们也需要明白,Tegra 4的悲剧并不全是由于Tegra 4本身或是nVIDIA的技术实力导致的,究其根本,元凶还是Cortex A15核心过低的能耗比。这也决定了不仅是nVIDIA,其他任何试图在产品中引入标准Cortex A15架构的厂家,例如未来的华为海思K3V3,最终都将难逃“性能超不过A9”的魔咒。对于手机等便携式设备而言,Cortex A15毫无疑问是一个失败的设计,也无怪乎高通和苹果在几年前就决定放弃这个架构,自行以Cortex A9为基础发展自己的强化核心。这也从另一个方面看出,至少在目前可以看到的ARM产品中,Cortex A9依然是可以提供最强实际性能的产品,即便它已经问世超过了2年。   最后提一下Tegra 4i。相信nVIDIA规划这样一个产品,也是因为NV实际上非常明白Cortex A15是一颗怎样的核心。因此,我们甚至可以理解为,Tegra 4i才是针对手机市场所推出的高性能产品。改进的Cortex A9 r3p1核心可以带来最多15%的同功耗性能提升,也就是更高的体效值与实际性能。但是Tegra 4i却如同骁龙800一般选择了HPM工艺,并且因为需要集成基带而无法在2013年上市,这对于Tegra 4i和nVIDIA而言无疑是彻头彻尾的悲剧,尤其是如今Cortex A12箭在弦上的情况下。如果说Cortex A15可以看作ARM在被成功冲昏了头脑之后的水楼,那么后者就可以看作是ARM在水楼失败后的反省之作,肩负了Cortex A9正统继任者的使命。对于它,我们在后面予以讨论,这里暂不多言。产品审查:三星Exynos 5 Octa
   最后来谈一谈技术最为复杂,同时争议也最大的三星Exynos 5 Octa(Exynos 5410)。这个芯片最大的特色就是整合了ARM的big.LITTLE技术,内部集成了8个核心——四个Cortex A15为一组,四个Cortex A7为一组,从而成为了手机上第一枚超越四核的片上系统。   也许你会提出质疑,NV的Tegra 3和Tegra 4实际上也拥有5个核心,为什么它不能算作是五核SoC呢?原因很简单,因为Tegra多出来的那一枚核心其实设计上是作为四个主核心其中之一的映射,在实际工作中系统是识别不出这一颗核心的。   但Exynos 5 Octa不同,它的八颗核心在某些情况下是可以同时运行的,因此可以称之为八核SoC,虽然实际情况下这样的工作模式不一定会被用上,关于这点,即Exynos 5 Octa是否是伪八核,同样也是围绕这颗芯片的众多争议中最大的一个,对此后面我们会详细讨论。Big.Little架构   除了big.LITTLE以外,Exynos 5 Octa本质上是一颗非常典型的处理器,它拥有标准的Cortex A15核心、标准的ARM系统IP,支持的规格与系统配置也一如三星以往的风格,顶级而不顶尖。LPDDR3 1600的内存支持与12.8GB/s的理论带宽在手机SoC中实为翘楚,而PowerVR SGX544MP3运行在533MHz的高频下,假如不考虑信息尚不明确的Tegra 4,性能也足以进入ARM世界的前三:仅次于的SGX554MP4和骁龙800的Adreno 330。   工艺方面,三星使用了自家最新的28nm HKMG LP,根据三星的宣传资料,相对于32nm HKMG,28nm HKMG主要的提升在于集成度,也就是单位面积下可以实现更多的晶体管,提升幅度大约在35%左右。至于漏电等工艺性能,我们有理由认为不会和32nm HKMG,也就是上一代的Exynos 4412所采用的工艺有太大的差别,具体原因在上篇中我们也多有提及。三星32nm HKMG实际上是一个性能相当强悍的工艺,Exynos 5 Octa的基础至少也是有所保障的。   不过,如同之前说过的,Cortex A15本身不是一个利于手机使用的架构,只要把它做进手机,都要面对功耗难题,,三星也不能例外。Exynos 5 Octa的最高频率目前并没有明确的说法,也许会在1.7到1.9GHz之间,但我们知道的是,在Galaxy S4上,Exynos 5 Octa的最高频率只开放到了1.6GHz。   1.6GHz的标准Cortex A15核心满载功耗不会低于1.8W,三星即使经过大量优化,Exynos 5410四颗A15核心的总功率也依然要在6W以上,这大大超越了2.5W乃至4.15W的散热极限。实际情况可以作为这个推断的最佳例证:Galaxy S4的CPU满载工作的时间只能达到区区10秒,之后就不得不因为核心温度突破90度而被迫关闭Cortex A15核心。   Exynos 5 Octa是一个明显的市场导向产品,三星在设计它的时候,考虑优先点是市场对于参数的需求,而完全不顾这样规模的硬件是否可以安全的工作。当然,作为应对,ARM提出了big.LITTLE,三星也将其引进到产品中,但是这样的行为并不能本质上改变这个设计的失败之处。有人也许会说,这不是很好吗,何来失败?那就让我们继续研究下去。运行5秒钟以后,猎户座5处理器的A15核心即开始降频   现在让我们来打个赌:如果你是Galaxy S4八核版的用户,你绝对会有这样的体会:Exynos 5410处理器主频在实际运行中非常不稳定,低于标称的1.6GHz是常态。
   在Exynos 5410中,Cortex A15四核的最低工作频率是1.2GHz,而Cortex A7四核的最高工作频率也是1.2GHz。问题是,这两者的同频性能并不一样,导致以频率为控制参数的算法比较难写。于是三星在系统中将Cortex A7的有效频率显示为实际频率的一半,并以此作为控制参数,就实现了较为线性的频率——性能曲线。
   也就是说,只要你看到Exynos 5 Octa的工作频率是1.2GHz以上,就意味着现在是Cortex A15在工作,而600MHz则意味着Cortex A15已经关闭,系统已经切换到1.2GHz的Cortex A7。由于频率调节十分频繁,所以这给我们计算Exynos 5 Octa的效率带来了一定的困难,不过我们依然可以从实际工作的情况下对于极限性能给出近似的计算。Exynos 5410 CPU + GPU同时满载的情况,注意下方的频率曲线   根据爱活网友站enet的测试结果,在满负荷工作的时候,Exynos 5410的工作模式大约如下:Cortex A15于1.6GHz工作6秒左右,于1.2或1.4GHz工作4秒左右,然后切换到1.2GHz的Cortex A7工作10秒左右,并且在这样的序列下循环。由于频率调节的目标是功耗以及温度,因此我们可以近似认为在这样的工作序列下,处理器系统的平均功耗大约是2.5W左右。如果将Cortex A15的性能归一化为同频Cortex A9的1.5倍,Cortex A7为0.7倍,因此我们可以得到在这20秒内,Exynos 5 Octa所输出的总性能相当于四核Cortex A9运行在1.53GHz时的性能。也就是说,Exynos 5 Octa所能提供的持续性能,甚至还不如Exynos 4412,因为后者在2.5W的功耗限制下可以运行在1.6GHz。Exynos 4412依然是能耗比最为均衡的手机处理器   当然,这个结论有些粗略,我们只验证了基准测试时猎户座5处理器的CPU频率变化,实际应用中可能有所不同,但有一点可以确定,那就是Exynos 5410在手机上可以发挥的性能远远低于硬件设计的极限性能。Cortex A7与Cortex A15联合的效率,大约和Cortex A9不相上下,这也就意味着配备了Exynos 5 Octa的设备,其体效值并不会比Exynos 4412高。 }

我要回帖

更多关于 浮点运算 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信