AMD显卡和amd处理器配什么显卡到底哪里差了？

点击联系发帖人 时间：2016-09-12 16:44

amd处理器怎么样

当前位置 &
出处：&& 21:38:21&&&&
编辑：上方文Q[])
内容导航：第[01]页：[&杀手&的新故事]第[02]页：[显卡性能测试：AMD大战NVIDIA]第[03]页：[显卡测试总结：DX12时代 AMD又赢了]第[04]页：[CPU性能测试：DX12真立功了]第[05]页：[3DMark测试：AMD CPU猛增15倍！]第[06]页：[CPU测试总结：AMD真的要翻身了？]
接下来我们继续测试《杀手》对于AMD和老对手Intel两家CPU的支持情况，此外也要着重考量DX12对于游戏的影响。
说到底DX12其实并不是一个全新的API。相信玩家们还记得两年前AMD闷声发大财搞出来的Mantle API，原理和DX12是一脉之源，都是在试图利用更底层的API直接利用硬件资源，摒弃多余的层级、提高资源调用的效率、减少硬件开销，同时重点提高多线程能力，均匀地调用所用的线程，突破CPU的瓶颈。
Mantle API为DX12的成型立下了汗马功劳
&&《战地4》是第一个支持Mantle的大作
测试平台和方法说明：
本次我们选用定位相近的Intel Core i5-6400和AMD FX-8300作为测试对象。测试分为两个项目：
1、分别测试DX11和DX12新旧两个API在20**1600三种分辨率下的最高效果在内建Benchmark下帧数情况，测试不同图形压力下的表现。
2、利用3D Mark中的DX11 Singer-Thread、Multi-Thread以及DX12对比渲染指令（Drawcalls）进一步分析。
测试平台：
基本图形设置：
游戏内建Benchmark测试
图表中Delta(%)是指该CPU在固定分辨率下对比两种API的提升百分比。Delta值越大说明DX12中相比DX11提升越大。
分辨率下DX12带来的提升并不明显，FX-8300的提升只有9.8%，不到5帧。i5-6400的提升更小了，1.2帧的提升换算成百分比只有2%左右，可以看成是误差。
主流的1080P分辨率下提升变得明显了很多，FX-8300提升了14.8帧，换算成百分比接近30%。i5-6400的提升也相当大，提升了10.9帧，换算成百分比为18%&&已经不小了。
分辨率下的提升就更吓人了，FX-8300帧数从50.5帧一口气冲到76.2帧，提升了29.4帧，接近40%的提升！i5-6400也不简单，从61.4帧提升至76.2帧，14.8帧换算后接近25%的提升。
从测试中可以看出，DX12的特性和Mantle几乎如出一辙：提升最大的情况是在图形压力较低的时候，API会调用所有空闲的CPU资源，所以可以发现在分辨率下，AMD处理器的提升几乎达到了40%之多，从50帧提升到了70帧的水平。
反观分辨率的高压下，帧数的提升很小，更进一步的证明了DX12的原理就是减轻CPU的负载，将闲置的支援调用到更多的线程上。当图形压力较大的时候，CPU和GPU瓶颈双双达到，这时带来的提升非常有限，几乎忽略不计。
阅读更多：
相关阅读：
文章内容导航第4页 CPU性能测试：DX12真立功了
文章观点支持
为文章报道质量打分
当前平均分：0(0 次打分)
登录驱动之家
没有帐号？
用合作网站帐户直接登录英特尔与AMD处理器哪个好? ATI与NVIDIA显卡哪个好?_百度知道电脑显卡A卡跟N卡具体指的是什么？怎么区分？_百度知道小白提问！想知道AMD的CPU和Intel的U到底差在哪了。。_amd吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：168,191贴子：
小白提问！想知道AMD的CPU和Intel的U到底差在哪了。。收藏
很多人都说AMD的不行。为什么啊。？可我觉得AMD的显卡很好啊。
amdcpu,装机达人必备,天猫电器城,电脑硬件,品质科技成就高效智能生活!天猫电器城,品牌旗舰,闪电到家,超值包邮,智新生活!
----For 魅族MX2 如玉凝心纯简由心梦想尽在掌握！
真心不知道。。。还有AMD的U要配AMD的显卡，这是真的么？
不是必须要配amd显卡，只不过amd显卡性价比高。再一个，intel确实好，毕竟比amd早了好多年，而且全球百分之80的cpu都是intel造的是，intel相对稳定点，而amd就是性价比高
差在价格上。。。
相比而言，AMD的CPU的单核性能低，而且功耗大，对于一般的游戏玩家而言，对单核性能要求比较高，所以大家基本都选IU
单核心性能比因特尔差距不是一代了
价格上AMD赢
单核上AMD大败
回复1楼:单核性能
正解，iu单核性能好些，但是价格稍微好了点点，au性价比好～
应该是架构上，因为架构的原因，所以单核的性能上不行，但是AMD的便宜，所以还能接受，至于显卡牛主要是因为收购ATI，这是个厉害的显卡厂商。
AMD的U超频也赶不上Intel的U 吗？有的amd的U我看见频率也很高啊。
AMD A10-6800K评测结果曝光，核心性能超i5 50%,显卡性能超i5 60%
3A平台，可以把多余显存当做内存使用，效率加倍
AMD通过数据研究分析发现，处理器的数据处理中80%是整数运算，20%是浮点运算。也就是浮点运算占运算量的1/5。因此从纯数学理论的计算看可以按每个模块化设计为每四个整数运算单元和一个浮点运算单元组成一个运算的模块。因为用四个整数运算单元一个浮点运算和单元组成一个运算的模块的算法的调度较为困难，而且跨度太大，因此AMD降低了CPU算法的调度和运算的难度，用按每个模块化设计为每两个整数运算单元和一个浮点运算单元组成一个运算的模块，这样可以充分提升CPU的运算效率。推土机的CPU的架构就是每个模块有两个物理核心，每个物理核心都有完整的整数运算器，两个物理核心共享一个浮点运算运算器，而每个模块共享一个前端解码器，共享二级缓存，三级缓存。但是这种架构由于过于超前导致了现行的操作系统不能较好的识别双核心共享一个解码器的模块化的，因此其分配任务时是按前端解码器的个数分配任务，而不是按处理器模块的中的核心数分配。因此导致了CPU处理任务时分配数的下降。举例说明如果FX8350按8个核心则其整数运算时有八个完整的整数运算器，每个整数运算器运算周期可处理4条整数运算指令，则FX8350在每个运算周期的整数运算处理数为8X4=32条，但是由于由于过于超前导致了现行的操作系统不能较好的识别双核心共享一个解码器的模块化的，因此其分配任务时是按前端解码器的个数分配任务时，FX8350按4个模块进行整数运算时，则FX8350在每个运算周期的整数运算处理数为4X4=16条。同理FX8350按8个核心则其浮点运算时，由于其浮点运算器是共享的，相当于有8个浮点运算器的运算器，每个浮点运算器运算周期可处理2条浮点运算指令，则FX8350在每个运算周期的浮点运算处理数为8X2=16条，但是由于由于过于超前导致了现行的操作系统不能较好的识别双核心共享一个解码器的模块化的，因此其分配任务时是按前端解码器的个数分配任务时，FX8350按4个模块进行浮点运算时，则FX8350在每个运算周期的浮点运算处理数为4X2=8条。而对照一下I7 3770K，有四个核心，现行的操作系统能很好的识别现行的处理器架构，每个整数运算器运算周期可处理4条整数运算指令，则I7 3770K在每个运算周期的整数运算处理数为4X4=16条，I7 3770K每个浮点运算器的运算周期可处理4条浮点运算指令，则I7 3770K在每个运算周期的浮点运算处理数为4X4=16条。
现在对照一下FX8350操作系统可以识别和不能很好识别和I7 3770K运算能力
如果操作系统如果可以识别FX8350架构
每个运算周期的整数运算处理数
每个运算周期的浮点运算处理数
操作系统不能很好识别FX8350架构
每个运算周期的整数运算处理数
每个运算周期的浮点运算处理数
以上是理论的计算的结果。那么那种更能符合实际呢?现在用AIAD64的测试的成绩来验证。
19489 MB/秒
10788 MB/秒
21472 MB/S
在AIAD64的测试的成绩内存复制主要反映了整数运算的能力
I7-3770K和FX-8350 几乎相当21226 MB/秒/21472/秒=0.99
在AIAD64的测试的成绩内存写入主要反映了浮点运算的能力
I7-3770K几乎是FX-8350两倍
19489 MB/秒 / 10788 MB/秒= 1.81因此可以说FX8350架构过于超前使操作系统不能很好识别导致了运算能力特别是浮点运算能力的不能充分发挥。
因此AMD的压路机针对操作系统不能很好识别推土机的CPU的架构就是每个模块有两个物理核心，每个物理核心都有完整的整数运算器，两个物理核心共享一个浮点运算运算器，而每个模块共享一个前端解码器，共享二级缓存，三级缓存的现状，改为每个物理核心都有完整的整数运算器，两个物理核心共享一个浮点运算运算器，而每个核心有一个独立前端解码器，共享二级缓存，三级缓存的架构，这样就可以解决操作系统的识别的问题。
按照AMD的说法，该公司内部人士透露的看法。“压路机较推土机增强。布局可能看起来是一样的，但我们的乐高积木是完全不同的。当一切都说过和做过，我们应该得到45％的改善，这正好是原来推土机目标。这才是的推土机应该架构。”
人们说单核能力是通常最短木桶原理来衡量的。也就是说某个处理器的整数运算和浮点运算能力中与另一个处理器对照那个最弱，那个就是该处理器的单核运算能力那么如果按照这一原则，即便是操作系统如果可以识别压路机架构，按照现行的涉及到的浮点运算器每个核心的每条浮点运算的浮点运算处理数为2条，按8个核心算也就是在每个运算周期的浮点运算处理数为8X2=16条，与 I7-3770K每个运算周期的浮点运算处理数 4X4=16至多也就是持平，即1=16/16。如何来的45％的改善。
要回答此问题就要提及影响到浮点运算器中的除法器的运算的处理能力了。
酷睿微架构，其中一大改进就是全新的高速Radix-16除法运算器，大幅改善了宽位动态执行的效率，相比此前Merom采用的Radix-2,4除法运算器，Radix-16除法运算器每个时钟周期内可以传递4bit的数据，每周期可处理4个指令
Radix-16除法运算器可以用于整数和浮点运算，同时其对于平方根运算进行了专门的优化，整体的性能提升都有一倍以上。
而AMD的浮点运算器中的除法器采用的Radix-4除法运算器，每周期执行的指令数2条，但是据有关的报道AMD将采用radix-8的除法运算器每周期执行的指令数从2条改变为3条。
这是有关报道的摘要：
据超能网的消息：
采用Radix-8除法器，第三代“推土机”架构揭秘　
按照AMD的规划，“Bulldozer”推土机是第一代模块化CPU，第二代则是Piledriver打桩机，将于今年下半年发布，而且使用了Cyclos半导体的Resonant Clock Mesh技术以提高性能。到了2013年就该“Steamroller”压路机出场了，AMD对它的描述是“Greater parallelism”，强调并行性能提升。　　有关压路机的架构设计目前还是捕风捉影的阶段，日前AMD研究部门的David M. Russinoff发布的一篇论文中证实了Steamroller将会采用radix-8 SRT浮点模块，每周期运行指令将从目前的radix-4单元的2条提高到3条。Steamroller改变的是CPU中除法器（diyider）单元的设计，有兴趣的可以参考wiki的解释。David M. Russinoff参与了Llano APU的设计，其diy单元与前代K10没有diy硬件支持的设计有所不同，推土机继承了K10的设计，FMAC（浮点累积乘单元）中的除法器功能有限。现在Steamroller的设计类似Llano，当然不会是100%相同，因为它使用的是radix-8而非Llano的radix-4，每周期执行的指令数从2条提高到了3条。对比Intel的前进的步伐，AMD其实还是慢了许多，因为Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了，每周期指令数从原来的2条一下子提高到4条，数据延迟更低，浮点单元以及整数单元都可以从中受益。
分析认为AMD之所以没有采用radix-16而用了折衷的radix-8，是因为模块化结构中FP浮点单元被两个整数单元共享，radix-16过于复杂，成本更高。架构上的设计变化太过学术化，AMD的模块化CPU理念先进，但是第一代CPU表现并不太好，既有工艺上的掣肘也有架构设计上的不足，希望到了Steamroller这一代能更成熟些。
从以上的消息可以看出压路机出台后而此架构一但落实与成功,AMD与IETTL的差距将不复存在.
当压路机改为每个核心每周期可处理3个指令，则压路机处理器每个运算周期的浮点运算处理数是8X3=24条，它与I7 3770K的浮点运算对照为24/16=1.5=1.5X100%=150%,也就是说压路机的CPU的理论浮点运算能力至少有50%的增强，但是考虑到AMD的运算器的编译器略弱于INTEL的编译器，故有45%的增强也是尽在情理之中的。
理念是先进的
打比方说吧，AMD就像苏系武器，阴特鹅就像美系武器，各有优劣。。我想这样比较形象吧。。。。。纯手打打，专业挽驴二十年
哎，虽然模块话设计在理论上很有前景，但是要注意，首先，目前的优化跟不上，经常导致模块话设计的威力无效化，我们可以理解为，模块话就像有两个人，一个却条左手，一个少右手，但是工艺流程线却没有照顾他们，因此每个人干活很费力干不好，或者两个人搞一个，浪费了。而传统的可理解为每个人都是完整的，所以每个人按照既定的流程线（多核心优化）正常运转，如果有一天，微软和软件厂商良心发现，针对模块话的两个报废优化，更改流程线的话，那么两个人的效率会大大提升，从而实现1+1大于二，和二打一（两个au核心打一个iu核心的效果）这就是为为什么经常出现fx打不过自家老一代cpu
AMD的U就是垃圾，名声不大性能不好。关键是用了还会被看不起。你看看多少人用Intel，多少人说Intel好。多少人骂用AMD的都是穷屌丝。一个4核才卖这么点钱，怎么让人有优越感？AMD也只能在Intel的光芒下用廉价继续生产下去。所以，请所有的I粉买十颗E3八颗I7一颗I3，贴在额头上，镶在牙齿上，挂在衣服上。让我们这些用AMD的屌丝永远抬不起头....让A10卖500块！让AMD 的内存条卖200块！让A85的主板买100块！...5555好像买A10啊...好期待下一代啊...
amd便宜，这个能解释吗？就是华为和苹果的差距，苹果再好，买不起还不是得用大华为就算a吧的a粉，也黑不起iu的高端货
同等价格 amd的cpu都比intel强的单核性能稍弱不多绝对不差
嘿，其实AMD比不了intel。最重要一点是输在价格上，没intel卖的贵，连火星人都知道。还有的是AMD有做显卡芯片，而intel目前没有
很简单，一分价钱一分货，那价格是什么决定，是市场，市场购买的人多自然价格就高反过来说如果没人买或者少人买那自然价格低，这么来看就是很简单了
回复亡灵军团1
为什么用了全力开发了APU为主的发展战略。其原因如下：
1.APU的发展是CPU方展到一定时期的不可超越的阶段.
人们在IT的发展过程是一个由低级向高级的进化过程.由分立原件向集成原件转化的过程.人们在IT之初生产的器件都是分立的，随着工艺的进步，人们发现集成化可以产品的效能即通过产品的综合和系统集成可使其产生1+1大于2的效用。举例说明，当年的米格25，它的各项单个技术不是顶尖水平的，但是前苏联的科学家通过系统集成造出当时称雄天空的一代名机米格25。人们对CPU和GPU的发展过原来是各自分立发展的.但是人们发现CPU在通用计算的简单大数据流量处理上弱于GPU,而GPU在通用计算的复杂的数据运算,逻辑推演,分支判断远不及CPU.因此CPU尺有所短,GPU寸有所长,而AMD发现两者在通用计算方面可以互补.具体的就是通过CPU在通用计算的复杂的数据运算,逻辑推演,分支判断的强大的能力,去行通用计算的复杂数据的的处理,并指挥GPU对简单大数据流量处理快速处理.这只不过是APU运算的第一步进化,即各自分工发挥所长,提升效力,第二步是提升CPU对在通用计算的复杂的数据运算,逻辑推演,分支判断的分解能力,将复杂的数据分解为可为GPU处理的简单大数据流量,而此时进步提升GPU处理的简单的数据的能力和运算速度.以加强APU的运行能力.第三步就是运用分布式并行计算理论,神精网络理论,遗传算法理论,IA智能算法和P和PN的理论,对APU进行全新的再构造,并发挥其强大的CPU复杂的数据运算,逻辑推演,分支判断的强大的能力,和GPU高速的简单大数据流量的处理能力,逐步完成APU对数据处理和运算的人工智能的推进.具体的说APU的发展可分为三个阶段.初步融合.架构提升,人工智能.AMD的第一代和第二代才开始进到初步融合的阶段.离后续目标还很遥远.但它迈出了坚实的第一步.
2.APU的发展有数学理论做依据
各种软件都说明在运用异构同步计算时HC Benchmark的软件测试说明AMD的APU胜过INTEL的I系列的核显处理器.而EWSA也说明了这样的问题,因而有许多用I系列的核显处理器的人不服气,认为这是AMD的GPU的功劳.AMD此时就应该指出为什么会出现这样的结果,其原理是什么.其实这里包含了严格的数学定理.也就是说INTEL的I系列的核显处理器只要在GPU落后于AMD的GPU的条件下,是没有办法在异构同步计算的条件下战胜AMD的APU的.
现在给出严格的证明.
设K1为CPU,K2为GPU,由于CPU和GPU同时工作并且有.即K1*K2=1.
现在设INTEL的I系列的核显处理器中的CPU的效率为CPU的基准分为1,
I系列的核显处理器中的GPU的效率的效率为GPU的基准分为1,因为INTEL的I系列的核显处理器中的CPU在K1*K2=1.即其同在一个封装的处理器工作时,由于其不是融合的异构同步计算的,故其计算综合基准分为K1*K2=1*1=1.
现在设AMD的APU中的CPU的基准分为INTEL的I系列CPU的效率的80%,(实际CPU差距没有这么大)即AMD的APU中的CPU的K1小于INTEL的I系列的CPU的K1,而即AMD的APU中的GPU的基准分为INTEL的I系列GPU的效率的两倍,(实际GPU差距远超过这么大)即AMD的APU中的CPU的K2大于INTEL的I系列的CPU的K2由于其是融合的异构同步计算的
有人会说为什么不用AMD的APU中的CPU,GPU做基准分,因为INTEL的I系列的核显处理器是非融合的异构同步计算的故取其为基准分.如果不服气,可采用加权平均计算法或乘数计算法.从简单的乘数计算法:
I系列的核显处理器的基准分=1X1=1
AMD APU处理器的基准分=0.8X2=1.6
则APU与I系列的核显处理器效能=1.6/1=1.6.即APU的至少数据处理能力是I系列的核显处理器的1.6倍.正是基于以上的原因,INTEL即便是在GPU的水平上与AMD有巨大的落差,也要在其的CPU中集成核显,其目的有两个其一是通过对核显的不断的开发缩短与AMD在CPU中的巨大的落差,其二是摸索CPU和GPU的异构同步的运算能力的融合规律.然而在GPU的水平上与AMD有巨大的落差是短时间无法缩短的,因为如上面所说的GPU的游戏规则是由AMD,NVIDIA,微软通过DX指令集来定义的,因此由CPU的规则的制定者,转变为GPU的规则的应用者,这点区别是显而易见的.
3.APU的实际的测试成绩和应用实践证明了数学理论的正确度.
而HC Benchmark的软件证明了这点.HC Benchmark是中国计量科学院最近才开发完成的，全球第一款真正的异构计算基准测试工具，能够真正同时调用CPU、GPU资源，可以说是为APU量身打造的。　　这个工具的测试有办公应用、视频体验、上网体验、游戏体验四部分，可自由选择进行测试，完成后给出四个子分数和一个总分数。如果系统中有APU这种异构系统，程序就会自动为CPU、GPU分配计算任务。如果说GPU不支持加速计算，就会全部交给CPU执行。在该测试的四个子项中:
测试项目测试品牌
办公: APU A8 3850
视频: APU A8 3850
上网: APU A8 3850
游戏: APU A8 3850
总分: APU A8
在APU的测试过程中可以清楚地看到计算任务在CPU(蓝色方块)、GPU(橙色方块)之间的分配，而且会根据计算性质的不同为合适的硬件分配适量的任务。从成绩看，双显加速情况下的成绩比APU单显、6670独显分别高出62％、12％，效率还算可以。Core i5-2300因为无法利用GPU加速，只能将所有任务交给缓慢的CPU，结果自然和APU无法相提并论，总分刚刚超过8000，还不到APU的四成，APU双显交火后更是可以达到其4.3倍。各个子项目中，只有视频体验部分能够接近APU，其它都差距甚远。
以上是HC Benchmark的测试结果.摘自
从最强集显到融合加速：A8-3850 APU完全评测
来源：驱动之家作者：上方文Q
同样来自该文谈到的另一项测试:APU加速计算测试：SiSoftware Sandra 老牌系统检测、测试工具SiSoftware Sandra近日刚刚发布了最新的2011 SP4升级包版全面加入了对AMD Fusion APU处理器的支持。现在不仅可以完善检测APU系统的规格参数，基准性能测试模块也做了相应更新，通用目的测试环节中的运算性能、加密性能、内存性能三个环节都可以对APU进行考察。它的通用目的基准测试是基于OpenCL标准的，因此能够同时调动APU处理器中的CPU、GPU资源，并根据它们的处理能力不同而自动分配计算任务。如果系统内还有独立显卡，不管是A卡还是N卡都能加入基准性能测试。
首先是OpenCL运算项目，A8-3850单独使用CPU的话要比Core i5-2300弱不少，但是GPU部分明显强大得多，CPU+GPU联合之后更是遥遥领先，成绩为423亿次浮点每秒、1.09亿次像素每秒，是Core i5-倍。具体成绩如下:
测试项目测试品牌测试成绩
平均Shaber(十亿次浮点每秒/GFlops) A8 3850 CPU
平均Shaber(百万像素每秒)
平均Shaber(十亿次浮点每秒/GFlops) A83850 GPU
平均Shaber(百万像素每秒)
平均Shaber(十亿次浮点每秒/GFlops) A8 3850 CPU+GPU
平均Shaber(百万像素每秒)
平均Shaber(十亿次浮点每秒/GFlops) I5 2300
平均Shaber(百万像素每秒)
其次加密带宽测试
测试项目测试品牌
A8 3850 CPU
A83850 GPU
A8 3850 CPU+GPU
加密带宽测试出了点儿问题，CPU+GPU联合之后的成绩反而降低了，看来Sandra对这种架构的支持还有待进一步完善。
其三内存性能
内存性能 A8 3850 CPU
A83850 GPU
A8 3850 CPU+GPU
Fusion APU的设计理念对内存提出了相当高的要求，而且受到了现有技术的一些制约。通过本次测试可以看出，APU无论单独CPU还是单独GPU的内存带宽都不是很高，联合之后才基本接近Core i5-2300的水平。
综上所述可知以下两点:
1)APU在CPU和GPU的融合后将使异构同步的运算的效能大幅度提升.从实践上证明了数学推导的正确.
2)APU在CPU和GPU的融合后对软件的支持提出了新的要求,只有在完善的软件的支持下APU的功能才可能有质的提升与发挥. 要向市场转化就要软硬并重.AMD长期以来的一个弱项就是硬件超前,支持的软件滞后.K8的HT总线,64位处理器架构,双核处理器架构,CPU内存控制器,K10的多核处理器架构,融合芯片的APU,推土机CPU,都无一例外的遇到这样的问题.现在AMD已开始注意这方面的问题.尽快开发出便于硬件运行的软件包是其重要任务.AMD发布新版加速计算开发包APP SDK 2.6的发表明显反映其对软件的关注度.
4.APU将完成由标准的执行者项标准的制定者的转身.
在商界有句名言:一流企业做标准.
所谓的做标准在某种意义上说就是制定产品制造的规范,制定产品生产和市场销售的游戏规则.长期以来在X86的处理器架构的领域中,英特尔用其在X86的处理器架构中相对强势的地位,给出了X86的处理器的长期发展的标准模式及相应的CPU的指令集的规范.因而导致PC业界的基本上是以INTEL的X86架构的指令集来统一PC配件的标准和规范.AMD曾经有过多次领先的创新,如CPU的三级缓存L3在K6-3的利齿上的应用,K7价构提出效率为先则,K8的HT总线,64位处理器价构,双核处理器架构,CPU内存控制器,K10的多核处理器架构,融合芯片的APU.可是为什么没从根本上取的市场的绝对多数的份额.其根本原因就是AMD的技术上的突破最终还是要通过INTEL的X86架构的指令集来实现.AMD现在通过APU的架构完成了一个质的飞跃.过去衡量CPU的标准规范是CPU的X86的处理器架构的指令集,而APU的架构的出现,是CPU的X86的处理器架构的指令集,仅是APU架构的指令集的一部分,而且CPU的X86的处理器架构的指令集要向APU架构的指令集靠拢,否则将无法充分发挥APU的功能.而AMD APP SDK 2.6的发布说明AMD逐步推广APU和推土机架构的标准.其实类似AMD的APU架构英伟达也在做.所不同的是由于英伟达没有X86架构处理器的专利授权,而且没有对X86的处理器架构的研发经验,故另辟蹊径,用ARM架构的处理器和其的显卡组成，英伟达做成了类似APU架构的ARM结构的处理器.而且在平板电脑市场做的风生水起.AMD和英伟达都在做一件相似极高的事,即通过类似APU架构的处理器确定其在业界的技术标准,所不同的是AMD面对的是X86的处理器架构的市场,即传统的PC市场,而英伟达面对的是ARM的处理器架构的市场.既新兴的移动设备市场.两个企业不约而同的逐步脱离以纯依赖CPU,或GPU的局面,而走向两者融合的新道路和业界的规范.
5.APU是未来发展的长远战略.
我国有句名言:不谋万世者不足以谋一时,不谋全局者不足谋一城.
由于未来云计算的发展,个人计算机未来在云运行的网络中更多的是起数据上传与接收的作用.
这了说明APU才是未来的方向.AMD今年二季度据说推出第二代APU.功能强过一代50%以上.AMD实际上采取的是两翼齐飞,中间突破的发展战略AMD现在是两手抓,推土机及后续品种解决CPU的架构和效率的研制问题显卡则解决GPU的通用计算.和并行运算的结构问题,这是两翼,而APU则是在推土机及后续品种解决CPU的架构和效率的问题后,显卡解决GPU的通用计算.和并行运算的结构实际应用问题后,着重解决GPU与CPU的融合的.大家可以看第一代APU用的是K10.5的CPU和6XXX系列的GPU,英特尔的CPU游戏上不借助外接独立显卡已无法应对,今年二季度推出的第二代APU,将是推土机架构的CPU与7XXX系列的GPU.英特尔的CPU游戏上不借助外接独立显卡,与APU的距离将会进步拉大.
说明这篇文章是本人去年写的为了保持原样未改写
回复亡灵军团1 AMD坚持采用推土机架构是合理和科学的它反映了今后CPU和GPU的融合的必然趋势。然而AMD的CPU的浮点运算的软肋终究是要补齐的。其补齐的方法不外是以下几条。
通过以上的分析可以看出AMD坚持采用推土机架构是合理和科学的它反映了今后CPU和GPU的融合的必然趋势。然而AMD的CPU的浮点运算的软肋终究是要补齐的。其补齐的方法不外是以下几条。
1。给CPU设计全新的除法运算器。
据超能网的消息：
采用Radix-8除法器，第三代“推土机”架构揭秘　
按照AMD的规划，“Bulldozer”推土机是第一代模块化CPU，第二代则是Piledriver打桩机，将于今年下半年发布，而且使用了Cyclos半导体的Resonant Clock Mesh技术以提高性能。到了2013年就该“Steamroller”压路机出场了，AMD对它的描述是“Greater parallelism”，强调并行性能提升。　　有关压路机的架构设计目前还是捕风捉影的阶段，日前AMD研究部门的David M. Russinoff发布的一篇论文中证实了Steamroller将会采用radix-8 SRT浮点模块，每周期运行指令将从目前的radix-4单元的2条提高到3条。Steamroller改变的是CPU中除法器（diyider）单元的设计，有兴趣的可以参考wiki的解释。David M. Russinoff参与了Llano APU的设计，其diy单元与前代K10没有diy硬件支持的设计有所不同，推土机继承了K10的设计，FMAC（浮点累积乘单元）中的除法器功能有限。现在Steamroller的设计类似Llano，当然不会是100%相同，因为它使用的是radix-8而非Llano的radix-4，每周期执行的指令数从2条提高到了3条。对比Intel的前进的步伐，AMD其实还是慢了许多，因为Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了，每周期指令数从原来的2条一下子提高到4条，数据延迟更低，浮点单元以及整数单元都可以从中受益。
分析认为AMD之所以没有采用radix-16而用了折衷的radix-8，是因为模块化结构中FP浮点单元被两个整数单元共享，radix-16过于复杂，成本更高。架构上的设计变化太过学术化，AMD的模块化CPU理念先进，但是第一代CPU表现并不太好，既有工艺上的掣肘也有架构设计上的不足，希望到了Steamroller这一代能更成熟些。
从以上的消息可以看出压路机出台后而此架构一但落实与成功,AMD与IETTL的差距将不复存在.但有人会说Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了.每周期指令数从原来的2条一下子提高到4条.你的效率还是低25%.可是大家不要忘记AMD的CPU是双核心组合模块新架构,2 X radix-8=2X3=6.效率将6/4=1.5=150%.
2。通过硬架构实现CPU、GPU统一寻址，充分调用GPU的强大的通用计算和浮点运算的能力.而随着第三代的APU的CPU、GPU统一寻址，则,AMD与IETTL的差距也将不复存在。
现在看一条消息：
AMD包圆核心硬件?索尼PS4规格最新传闻
相关专题：新闻时间： 05:41 来源：和讯网
我们知道，AMD已经确定为索尼PS4提供从处理器到图形芯片一揽子解决方案。
今天，网上又泄漏了据称是索尼PS4的硬件规格，下面让我们来先睹为快。
索尼PS4研发代号Orbis，发布日期2013年圣诞节前后。处理器采用AMD 28nm 64-bit Kaveri，4个Steamorller核心，8个线程，512个流处理器，1TFLOPS计算能力，用途为通用计算（物理，AI，动画等等）。
PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能力大2.5TFLOPS。
PS4配备4GB共享内存，500GB内置硬盘，蓝光驱动器。
这条消息如果被证实,则包含了巨大的信息量.极为重要.
1)首先反映了AMD的第三的APU的架构预研已经结束.即将转到流片的前期准备工作,否则到明年才开始准备流片的前期准备工作,时间及生产部署根本来不及.
2)其次反映了AMD的第三的APU的架构的达到了预期的技术指标,满足PS4的技术架构的整体要求。首先从APU的浮点运算能力和通用计算已达到1TFLOPS计算能力，用途为通用计算（物理，AI，动画等等）。这说明了个题，即有要么是CPU的浮点运算有了大幅度的提高，要么是CPU和GPU的融合性能有了质的飞跃。即加入的RISC微型处理器对CPU核心、GPU各线程进行实时动态调度，大大克服了目前推土机所存在的线程调度问题，将软件级线程调度（操作系统调度）提升到硬件级别，开放式异构计算架构 HSA使性能提升达到了非常强劲的地步。或者两者兼而有之。
3)PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能力大约2.5TFLOPS。它说明了Pitcairn，GCN架构的显卡的架构的巨大的浮点和通用计算能力在游戏中将有出色的表现。并该显卡与APU中的GPU组成双显卡的CF体系将使整机的浮点和通用计算能力达到或大幅度的超过1TFLOPS+2.5TFLOPS=3.5TFLOPS的浮点和通用计算能力。
4)CPU的浮点运算的架构有了质的改进。
以上的推断是否正确呢？最近硬派网的消息如下：
28nm工艺第三代APU—Kaveri规格预览
来源:wccftech 【编译】
作者:王磊责任编辑:王磊
尽管桌面版的Trinity还没发布，但AMD已经计划好将于明年推出28nm工艺、架构为Kaveri 的第三代APU，以取代32nm工艺Trinity的位置。
Kaveri APU将具备2~4个Steamroller（压路机）核心，其中四核款的TDP将为100W。同时，Kaveri将支持DDR3-2133MHz内存，具备4MB三级缓存，而接口将继续使用Socket FM2。
GPU方面，Kaveri将采用GCN架构的HD8000系列显卡，规格最高的版本将具备384个流处理器，而性能预计将接近HD7750。此外，Kaveri也将支持双显卡混合交火、Turbo Core、Blu-ray 3D、AMD –V、UVD 3.2、Direct Compute以及OpenCL等技术。
另外来自驱动之家的消息如下：
APU明年实现真正的CPU/GPU统一寻址
16:28:44作者：上方文Q 编辑：上方文Q
AMD一直宣传Fusion APU不仅仅是CPU、GPU的简单物理整合，更是深层次的融合，而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后，明年的Kaveri将最终完全实现这一梦想。
彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。
对于开发人员来说，统一寻址意味着更少的参数、更少的调试、更简单的接口，自然能大大减轻编程的负担。
还有消息确认，Kaveri APU的CPU部分将会是“压路机”(Steamroller)，仍然是推土机架构但会解决目前打桩机架构中的几个重大问题，基本展现推土机应有的实力，GPU部分则是真正的GCN架构，不像Trinity那样是VLIW4架构加上Radeon HD 7000系列的部分特性综合而成。至于是不是每个核心都会有自己的浮点单元和指令调度器，CPU、GPU是否能共享三级缓存，封装接口会不会再次改变，现在都还不能确认，从可能性上看后两个比较大，而前者概率很低。
Intel Haswell也将在明年继续大幅提升图形性能，最多40个计算单元，三级缓存共享也早已实现，但不会有统一内存寻址，并行计算虽然支持但不可能有太好的表现。
另外，AMD还在AMD Fusion开发者峰会上宣称，APU的历史累计出货量已经超过4000万颗，十二大OEM厂商中有十一家都采纳了APU，Llano APU在AMD移动平台上的普及率已达60％。
从以上的报道证实作者的推断的正确度.
3.通过编写OpenGL的软件，实现CPU对GPU运算能力在底层的调用，以充分发挥GPU的强大的通用计算和浮点运算的能力。这一项的实现是未来AMD可能为购买新一代的GPU发放的一项福利。
这项福利的发放会有三种情况:
1）AMD自己通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。
2）主板厂商通过充分研究，并且与AMD的合作，完成编写主板的固件程序来完成CPU对GPU通用计算和浮点运算的能力的调用，以强化CPU浮点运算的能力。这即是主板厂商综合实力的体现，也是未来主板差异化战略的重大商机。
3)软件厂商通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。为自己的产品开辟新的商机。
也就是说当前买了推土机架构的CPU，以后可能通过购买AMD的显卡及附属的驱动软件来调用GPU的强大的通用计算和浮点运算的能力，实现CPU功能的提升。
对第三方的主板商或软件商来说这是一个稍纵即逝的战略商机，如果AMD一旦腾出手来机遇也就不复再来。同样的问题和解决思路亦可用于INTEL的CPU和NVIDIA的显卡上。但是当这两家也发现此商机，实现专断开发时，就不会再有此商机。
回复亡灵军团1 最后回答几个重要的问题：
1 为什么说是L1或L2或L3的缓存配置不当所致，或说是内存控制器落后，或是说是分支预读取和判断落后所致推土机架构效率低，都是错误的分析。
答:这可从以下的分析得出结论.
这是I7 2600K 和FX-8150 的CPU缓存及内存控制器,指令集对照 .品牌
FX-8150 CPU项目 L1
一级数据缓存 4 X 32KB
一级数据缓存 8 X 16KB
一级指令缓存 4 X 32KB
一级指令缓存 4 X 64KB L2
4 X 2MB L3
8MB 指令集
MMX，SSE（1，2，3，3S，4.1，
x86, x86-64, MMX, SSE
4.2），EM64T，VT-x，AES，
SSE2, SSE3, SSSE3, SSE4.1,
SSE4.2, SSE4A, XOP, AES, AVX
, FMA4内存控制器
双通道DDR3 1333
双通道 DDR3 1866
常言说的好,有比较才有区别,才可以分析问题的所在.
1)从以上的数据看AMD的推土机的一级缓存不仅不低于I7 2600K的一级缓存而且还高于I7 2600K的一级缓存,首先看AMD的推土机的的架构是FX-8150是四模块八核心,一级数据缓存 8 X 16KB=128KB.而I7 KB=128KB 两者打了个平手,FX-8150一级指令缓存 4 X 64=256KBI7 2600K一级指令缓存 4 X 32KB=128KB ,也就是在指令处理上FX-8150较I7 2600K更具备优势.另外可以说的是两个CPU的L1的16K比一个CPU的L1 32K更快更有效率。这在算法上可给出严格的证明。但是它要涉及到算法调度优先级的判断和选用。你如果找到MIPS处理器设计透视，Cell BE处理器编程指南，大话处理器就知道了。可能你会问X86的架构关乎MIPS处理器什么关系，可是你看了大话处理器P71页的RISC时代就知道CICS指令集的X86指令集先被解码为类似RISC指令的微操作。以后的指令采用RISC的内核。这是INTEL的P6架构确立的。这点一直延用至今。
2)从二级缓存看 FX-8150 4 X 2MB 而I7 2600K 4 X 256KB 这意味着CPU在一级缓存没有命中时,FX-8150 可以比I7 2600K 有更大的二级缓存来提高命中率.
3)从二级缓存看两者无区别.
4)在分析了一,二,三缓存后分析以下内存控制器FX-8150双通道 DDR3 0K 双通道DDR3 1333 两者强弱不言自明.
5)最后看一下CPU指令集 FX-8150 x86, x86-64, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, SSE4A, XOP, AES, AVX, FMA4,I7 2600K MMX，SSE（1，2，3，3S，4.1，4.2），EM64T，VT-x，AES，AVX ,FMA，I7 2600K 有的指令 FX-8150 全有,I7 2600K 没有的指令,FX-8150 也有,FX-8150 的指令集比,I7 2600K 指令集更丰富.
通过以上的分析在CPU了一,二,三缓存,内存控制器,指令集上 FX-8150 全面领先.可是FX-8150 在整数运算的表现说明了这点.
2.为什么说不是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的主要原因.
答:对照FX-6100与X6 1055T的内存写入即可说明.
内存写入9928MB/秒
X6 1055T 内存写入6895 MB/秒
9928MB/秒/6895 MB/秒=1.43
这个运算结果也反驳了是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的说法。
3.既然浮点运算器是INTEL和AMD的CPU浮点运算差距的主要原因.为什么AMD不立即推出radix-16除法器.
答:提升除法运算器的浮点运算能力不是一个简单的事,否则AMD早就推出radix-16除法器了.因为INTEL在2006起采用radix-16除法器，而AMD据超能网的消息压路机的架构采用的还是radix-8除法器,而不是radix-16除法器.，它涉及到算法调度，要知道从每周期指令数从原来的2条一下子提高到4条涉及的算法难度决不是提高一倍的概念，要提升几十个或数百个数量级。难度极大。
此外AMD亦希望通过CPU对GPU的调用来弥补CPU的浮点运算能力偏弱现状.随着彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。此时CPU的浮点运算能力偏弱现状将不复存在.
4.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么不立即采取相应的措施?
1)首先从硬件层面上完成要有赖于彻底实现统一寻址,CPU、GPU之间就可以有通用的用户调用，并共享数据而这一步尚待进一步完善.
2)从软件层面上完成要有赖于对相应的硬件架构的软件代码的全面地编写,和相应的验证过程.
5.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么还要设计新的radix-8除法器
答:根据数学公式和实际的运算都证明了CPU与GPU相比在小容量的通用计算和浮点运算中具有极大的优势.其运算速度更快.而最直接和最快的实现CPU的在小容量的通用计算和浮点运算中的能力就是设计新的radix-8除法器,尽快提升CPU的在小容量的通用计算和浮点运算中的能力.
以上是自己的一些研究的心得，可能有不对之处，仅供参考。
另外文章中引用了微型计算机，驱动之家，wccftech ，和讯网，硬派网，超能网的文章的消息和测试的数据，对此向微型计算机，驱动之家，wccftech ，和讯网，硬派网，超能网及文章作者致谢。
说明这是本人去年写的为了保持原样未改写，关于PS4的最新消息下面回复中给出摘要和相应的分析。
A10_6700数据曝光
新A10全系列
测试APU型号
回复亡灵军团1 这是PS4的最新消息的地址
登录百度帐号推荐应用
为兴趣而生，贴吧更懂你。或}

久游无息网