有什么办法能让GPU的企业环境信息公开办法吗

点击联系发帖人 时间：2018-05-01 18:40

信息公开办法

WCG项目参数设置一直显示禁止下载NVIDIA GPU程序怎么让GPU参与计算？ | 分布式计算小组 | 果壳网科技有意思
10026人加入此小组
科学松鼠会成员，信息学硕士生
可能要到WCG官网设置一下参数吧……
引用的话：可能要到WCG官网设置一下参数吧……方兄一直关注着这个小组，我要改善一下这个小组了~
科学松鼠会成员，信息学硕士生
引用的话：方兄一直关注着这个小组，我要改善一下这个小组了~嗯，加油吧~~~
这里选中了么？
引用的话：这里选中了么？恩，这选中应该就行了，试试看~~
(C)果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱：&&&&举报电话：&&&&&&&&查看：回复：4
分享一个增强GPU的方法，让你的游戏画面流畅不卡顿
rel="nofollow" href="//my.pcauto.com.cn//fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="//my.pcauto.com.cn//pick/"
target="_blank" rel="nofollow" id="fan精华
最后修改IP： 180.125.6.126
您好，精华帖至少要有15张图片，文字不少200个字！并且是原创内容，布局合理。
楼主电梯直达楼
1.需要手机的ROOT权限2.需要RE文件管理器3.系统请更新到B133（其他系统应该也是可以的），亲测的是联通白机器。4.打开Root&Explore，并授予永久的root权限，然后进入Root目录5.找到文件&sys/devices/systrm/cpu/cpu0/cpufreq6.用RE文本编辑的方式打开scaling_ddr_block_freq7.将里面的0改为450000，然后菜单键，save&and&exit8.再将scaling_gpu_block_freq的文件改为480000详情请点击：
如果你对以下车友回答满意，请设置一个推荐答案！
申请精华帖
您的申请已经提交，请耐心等待审核
1、审核通常是1-3个工作日 2、审核结果我们会通过系统消息给您答复
申请精华帖
您已经超过申请限制，不可再申请
您的申请连续三次被驳回，已经无法再申请精华帖，谢谢你对我们的支持！如有疑问，可以投诉/建议&&
申请精华帖
您有发现精华的慧眼，赞一个！
1、我们会在1-3个工作日内完成审核
申请精华帖
此贴已经申请精华中，谢谢您的支持！
1、我们会在1-3个工作日内完成审核
申请精华帖
您好，该帖子经过审核后，发现内容不符合精华要求，无法申请成为精华，谢谢你的支持！
申请精华帖
抱歉，帖子还没达到精华标准
精华帖至少要有15张图片，文字不少于200个字！您的帖子未达到要求，不能申请精华。查看精华帖标准
rel="nofollow" href="//my.pcauto.com.cn//fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="//my.pcauto.com.cn//pick/"
target="_blank" rel="nofollow" id="fan精华
最后修改IP： 113.110.23.142
抢个沙发些
rel="nofollow" href="//my.pcauto.com.cn//fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="//my.pcauto.com.cn//pick/"
target="_blank" rel="nofollow" id="fan精华
最后修改IP： 113.110.23.142
有用吗？要去试一下
rel="nofollow" href="//my.pcauto.com.cn//fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="//my.pcauto.com.cn//pick/"
target="_blank" rel="nofollow" id="fan精华
最后修改IP： 112.255.6.171
抢个沙发些
rel="nofollow" href="//my.pcauto.com.cn//fan/"
target="_blank" rel="nofollow" id="follow粉丝
rel="nofollow" href="//my.pcauto.com.cn//pick/"
target="_blank" rel="nofollow" id="fan精华
最后修改IP： 112.255.6.171
抢个沙发些
只可添加一张图片，多张图片请选高级模式
温馨提示：回复超10字可获1金币，有独特见解超30字可获3金币，灌水用户将扣除金币并锁号处理。希望广大车友共同维护论坛的友好回复氛围。
您需要登录后才可以发帖&&&&&&│&&&&│&&&&
帕萨特更多相关问题平板/笔记本
HiLink生态产品
终端云服务专区
学会GPU的正确使用方式，让流畅的手机更流畅
&自成一派&
来自：浏览器
1.jpg (40.16 KB, 下载次数: 27)
13:32 上传
在开发人员选项里有个GPU设置，当然里面有很多种设置。这些设置到底该不该开，什么时候开呢？又成了一个大问号。
不过楼主想了很久，终于研究出如何以最佳方式调好GPU的各项设置，保证手机从此甩起来hi!
首先，打开设置看到开发人员选项进入找到并打开强制进行GPU渲染。这项功能个人建议一定要开。因为这项功能非常实用，他可以很好的降低CPU的负载，从而更好地提升手机流畅度。
2.jpg (23.29 KB, 下载次数: 19)
13:34 上传
MSAA这项功能采用4倍抗锯齿，让画面的边缘看起来更加柔和平滑，养眼一些。这项功能也会加大GPU负载，建议需要的时候开启。
3.jpg (23.43 KB, 下载次数: 16)
13:33 上传
游客，如果您要查看本帖隐藏内容请
开启上面的的那个GPU渲染足够了。给手机的工作分配最重要是平衡，这样才能更好地给手机加速，不能盲目操作。
width:100%">
&独步江湖&
来自：浏览器
width:100%">
&渐入佳境&
来自：浏览器
，让流畅的手机更流畅
width:100%">
&炉火纯青&
来自：浏览器
小手一抖，花瓣拿走。
width:100%">
&略有小成&
来自：浏览器
？？？？？？？？
width:100%">
&自成一派&
来自：浏览器
小手一抖，花瓣拿走。
width:100%">
&登峰造极&
来自：浏览器
打开强制进行GPU渲染可以很好的降低CPU的负载，从而更好地提升手机流畅度。感谢你的分享，期待你以后更多的分享哦。
width:100%">
&渐入佳境&
来自：浏览器
哇哇哇哇哇哇哇哇
width:100%">
&略有小成&
来自：浏览器
多谢分享了哈
width:100%">
&炉火纯青&
来自：浏览器
为什么啊？？
width:100%">
1 / 150 页
在职斑竹的身份勋章，感谢斑竹的辛勤劳动
好基友勋章
花粉好机友，注册时间大于99天
1000万花粉
纪念花粉俱乐部注册花粉数超过1000万
塞外好风光车与模帝都双彩虹夜色阑珊白天不懂夜的黑美丽的北京
花粉客户端
Make it Possible
Make your device special
华为云空间
Huawei cloud services
音乐播放器
Huawei Music
Huawei Vmall
关注花粉俱乐部
举报邮箱：
|关注花粉俱乐部：
增值电信业务经营许可证：苏B2-号|
Copyright (C)
华为软件技术有限公司版权所有保留一切权利如何让gpu满负载_百度知道
如何让gpu满负载
想看看散热好不好，有什么软件能让gpu满载
我有更好的答案
使用FurMark进行拷机。使用aida64进行显卡拷机。使用3d mark进行拷机。使用鲁大师进行拷机。GPU，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器。
采纳率：46%
来自团队：
FurMark GPU满载··
本回答被网友采纳
注意甜甜圈满载时间别太长
这个拷机软件太强悍了
散热这货你冬天来测有意思么，都大寒了
其他1条回答
为您推荐：
其他类似问题
您可能关注的内容
gpu的相关知识
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。当前位置：
&谈谈GPU吧
作者 yalefield
先来点儿虚的。
计算基础正在发生根本变革——解读“计算2.0”
从本质上看，软件实际上只是夹在人与硬件之间的一个中间层，人们使用软件的根本目的还是要让硬件运转起来为自己服务。硬件平台如果长期稳定，软件就能够安稳发展，建起高楼大厦，硬件基础如果打个喷嚏，软件就会得一场感冒。过去十几年来，我们的计算环境已经发生了很多变化，比如RISC的兴起，大规模服务器集群的发展，SIMD的普及，特别是网络的大发展，令人印象深刻。每一项变化都给软件带来一定程度的冲击。不过大部分情况下，这种冲击力度有限：只需要有一小部分人去关注就好了，他们会尽可能把这些变化包装起来，从而使得其余的绝大部分人不受影响，而又能够享受硬件发展带来的免费午餐。比如说，RISC跟硬件平台带来的变革是非常巨大的，但是只有编译器和操作系统开发者真正需要关注它。SIMD（MMX、3DNow!、SSEx）的发展使普通计算机处理多媒体数据的能力获得了本质提升，但是厂商们也推出了一系列封装库，使应用软件开发者们在不需对开发方式做重大改变的情况下享受这些发展成果。
然而站在今天这个时间点上往前看，就会看到，情况在发生的变化。发生在若干个不同领域的硬件进展，几乎在同时达到了可以被称之为“本质变化”的状态。而所有这些变化结合起来，则使我们面对一个自1980年代初PC崛起以来从来没有过的局面，一个可以毫不夸张地称之为“变革”的局面，我们称之为“计算2.0”。在“计算2.0”的时代里，软件开发者面对的平台会发生巨大的变化，而且这些变化很多是非常本质的，无法简单地使用“包装”的手段屏蔽掉，从而要求软件开发的实践也必将随之发生巨大的变化。这对软件产业的每一个人来说，是历史上很少会遇到的情况，给我们带来巨大的挑战和机遇。
下面就让我们一起来展望一下“计算2.0”将给我们带来的冲击。
1. 多核与并发编程
自从2005年初C++标准委员会主席Herb Sutter发表《并发的革命——免费午餐已经结束》的著名文章以来，多核已经成为整个软件社群里热门话题。在那篇文章里，Herb Sutter断言说，CPU频率的提高已经接近极限，摩尔定律的发展今后将依赖多核化进行下去，因此，软件若要在未来的环境下生存，必须考虑并发问题。接着，Herb Sutter做出了更大胆和更惊人的语言，那就是不存在解决多核编程问题的银弹，不存在可以简单地将并发编程问题化解掉的工具，开发高性能的并行程序必须要求开发者从根本上改变其编程方法。从某种意义上来说，这不仅仅是要改变50年来顺序程序设计的工艺传统，而且是要改变数百万年来人类顺序化思考问题的习惯，其困难程度可想而知！
将近3年后的今天，Herb Sutter的预言似乎初步得到了印证。单核机器现在已经成了过时货，并且很快就会加入古董的行列。而多核机器的价格正在迅速下降。如今花2万块钱人民币，可以买下“三个8”的刀片服务器——两个4核至强+8G内存+四块200G硬盘。再过一段时间，这个配置中的每项数据都会翻番。如果说在双核时代我们还可以假装一切都没有发生，那么当一台机器上出现16个核的时候，敢于去忽略这种体系结构上的根本变革的人，一定是疯子。
人们正在紧张地寻找着解决多核编程难题的方法。到目前为止，进展不太大。目前最理想的结果，就是类似Intel C++和Intel Fortran这样的编译器，可以自动识别可并行化的循环运算，然后实施自动并行化。但是这距离全面并发还很遥远。类似MPI和OpenMP这样的解决方案虽然早就存在，但是要得到普及难度不小。至于其他的一些常规方案，无非是优化多线程中的一些问题，比如无锁数据结构尝试避免加锁和解锁带来的巨大开销，而事务型内存也是为了优化多线程程序共享资源的性能和可靠性。专门为并发系统设计的语言Erlang，被很多人视为多核时代的Java，但是Erlang的长项在于并发任务的分发和同步，用它来处理计算密集型的任务，如图形图像多媒体处理和数值计算，效率之低令人无法接受。也许把Erlang当成计算的dispatcher，而让每个核上都继续以传统的单线程方式运行C程序是解决这类问题的办法。但是所有这些方法，都首先要求将任务分解成可同时并行的多个单元，并且将并行计算中的若干问题定义清楚。也就是说，这些方法都无法解决那个最大的挑战：人的思维方式转变问题。不改变我们编写应用程序的传统线性思维，所有这些工具都没有太大帮助。毫无疑问，这是摆在我们面前的最大难题之一。
2. 新计算设备
写作此文时，Amazon刚刚发布了电子书阅读器Kindle，这款产品的出现，基本上等于宣告电子阅读时代的降临，它所将引起的冲击必将是划时代的。然而对于开发者来说，它却只不过是在一个已经很长的新计算设备名单里又加上了一项。这个名单中包括：PS2/3，XBox/XBox360，Wii， Tivo，Game Boy、Game Boy Advance，PSP，iPhone，Windows Mobile，Symbian，Linux Mobile，Blackberry，iPod，车载导航仪，当然，还有最最激动人心的机器人。有人大而化之将它们统称为“嵌入式设备”，然而这是一个非常具有误导性的说法，这些设备中的每一项都不是传统意义上的“嵌入式设备”，而是更接近于计算机的通用计算设备，更确切的说法应该是“专用的通用计算设备”。
仅仅十几年以前，我们可以安全地认为，世界上每台计算机都是PC，每台PC都用X86 CPU，都安装了DOS/Windows。随着最近几年来新的计算设备如雨后春笋般涌现，PC包打天下的时代已经一去不返，这一点已经非常清楚不过了。
然而，软件开发者并没有从过去20多年形成的单一平台迷思中摆脱出来。在软件系统开发中合理运用多平台特长，充分注重可移植性的思维尚未形成，大部分应用还是为传统PC平台开发的。这一点显然已经落后于时代的发展。当然，这也就给那些有识之士提供了难得的机遇，充分利用多平台整合的优势，就可以开发出革命性的新型应用。
“CPU——中心处理单元，计算机的核心和大脑，一切的一切的主宰。”教科书上这么告诉我们。
很遗憾，这种说法早就不是事实了。自从类似DMA这样的技术出现，CPU就在不断地“减负”。事实上一台计算机里有许多块不同的芯片，它们各自有各自的绝活，让整台计算机高速运转。不过，不管怎么说，CPU还是整台电脑里最强有力的中心，它最强大，最能干。对吗？
很遗憾，连这个说法也变得非常脆弱了。在那些装备有高级图形卡的电脑玩家的机器中，CPU已经不是最强大的计算单元了，取而代之的是GPU。
GPU原本只是为了进行3D图形加速而诞生的芯片，由于其专用性，体系结构较之CPU大大简化，从而可以高度优化设计，进行大规模的浮点数并行计算。当代GPU在这方面的性能远远超过了CPU。在浮点数计算速度上，NVIDIA最新的GPU超过Intel最快的CPU达10倍以上，而据称，这一差距在未来几年内会达到数百倍。单就这一点来说，GPU早就是计算机中最快的芯片了。
然而，由于GPU的专用性，大部分通用计算任务是无法用GPU来完成的。例如，连最最简单的分支语句，GPU都无法完成。因此，GPU永远不可能取代CPU。但是，GPU强大的计算能力如果仅仅给高性能图形程序和游戏来使用，也无疑是一种巨大的计算资源浪费，有没有可能将GPU的计算资源暴露给应用程序员，由他们将适合于GPU计算的任务转交给GPU完成，而把CPU解放出来干CPU擅长的工作呢？没错，这就是通用GPU计算（General Purpose GPU computing）的宗旨。
眼下，NVIDIA和AMD（不久前收购ATI）都在加速推出对GPGPU开发的支持，而据传Intel也将在2008年推出自己的独立显卡，加入战局。这也就意味着，不出几年，每台电脑里都会存在两个强大的计算单元，一个是CPU，一个是GPU。软件开发人员将面临新的挑战——只有把任务合理地分配给CPU和GPU，并且进行统一调度，才能够达到效率上的最佳化。此外，那时候的CPU有8个或更多的核，而GPU本身更是高度并行化的计算单元，计算任务不仅要合理分布，还需要充分并行，这其中蕴含的挑战之大，足够令人心惊胆寒。然而，也正正创造了英雄横空出世的条件，谁能够横刀立马，谁就能功成名就。
4. 无处不在的网络
回到Kindle，这个产品最有趣的部分在于，你可以随时通过无线网络下载你想看的书，而且这些下载的书被保存在网络上你的一个私人空间里。你永远不会买不到想要的书，也永远不用担心家里太小，放不下这些书。如果你的Kindle丢失了或者你想换一台，没关系，你庞大的图书馆会毫发无损。
你觉得怎么样？非常好，对吗？但这需要一个条件，一个重要的条件——无所不在的网络，特别的，无所不在的无线网络。
不出几年，将不会再存在Internet的死角，在任何地方你都可以高速访问Internet。对软件开发者来说这意味着什么？这意味着很多过去惯用的软件设计思路将不再是最优的了，关于网络访问限制的很多担忧也变得不必要了。应用可以保证永远连网，用户数据也最好保存在网络上，密集的计算任务交给网络上的高速节点来执行，可能比本地执行更快。一言以蔽之，网络计算将全面取代单机计算，无论是对PC来说，还是对各种各样的小设备来说。
更重大的变化可能来自人们的生活方式，当互联网——这个目前世界上规模最大、最自由的网络——无处不在并且速度飞快的时候，其他的通信网络还有存在的必要吗？我们还需要使用中国移动的专有网络并且每个月为之付出不菲的费用吗？我们还需要忍受诸如“脑白金”那样的烂广告和矫揉造作的烂主持人吗？我们还需要买日报和杂志吗？可能都不需要了。互联网就是电视，互联网就是电话，互联网就是报纸，一切媒体归于互联网。这种局面会给人类的生存方式带来一个重大的变革，在其中蕴含着巨大机会、挑战和财富。在这个意义上，Google的成功只不过是一个序曲而已。
如上所述，相信您已经意识到我们处在一个怎样的变革当中！令我们兴奋不已的是，软件开发者在这个变革中处于前锋的位置，我们准备好了吗？
==========
在多核CPU上的多线程并行程序设计，究竟应该被称为“并行（parallel）”还是“并发（concurrency）”，并没有统一的认识。通常将“并行”定义为在多个计算单元上同时执行多个任务，而将“并发”定义为在单个计算单元上以分时的方式“同时”执行多个任务，由于多核CPU有多个计算单元，因此似乎成为“并行”更加合适。但又因为单个多核CPU对外只表现为一个计算单元，因此似乎“并发”也很合适。对这个问题缺乏统一的认识。从软件开发上来看，无论是否执行在多个核上，编程方法本身必须发生变化，这种变化了的编程方法通常被称为“并发编程”，表明这样方式编写的程序既可以跑在多个计算单元上，也可以以分时的方式执行在一个计算单元上。
[ Last edited by csfn on
at 20:24 ]
作者：Ian Buck，研究员，美国斯坦福大学图形实验室，E-Mail:
随着现代图形处理器(GPU)可编程能力及性能的提高，应用开发商们一直希望图形硬件可以解决以前只有通用CPU才能完成的高密集计算任务。尽管利用通用GPU进行计算很有发展前景，但传统图像应用编程接口仍然将GPU抽象成一个包括纹理、三角形和像素在内的图像绘制器。寻找一种能够使用这些基本元素的映射算法并不是一项简单的操作，即便对最先进的图形开发商而言也是如此。
幸运的是，基于GPU的计算从概念上讲很容易理解，并且现有多种高级语言和软件工具可以简化GPU的编程工作。但是，开发商必须首先了解GPU在图像绘制过程中是如何工作的，然后才能确定可用于计算的各个组件。
在绘制图像时，GPU首先接收宿主系统以三角顶点形式发送的几何数据。这些顶点数据由一个可编程的顶点处理器进行处理，该处理器可以完成几何变换、亮度计算等任何三角形计算。接下来，这些三角形由一个固定功能的光栅器转换成显示在屏幕上的单独“碎片(fragment)”。在屏幕显示之前，每个碎片都通过一个可编程的碎片处理器计算最终颜色值。
计算碎片颜色的运算一般包括集合向量数学操作以及从“纹理”中提取存储数据，“纹理”是一种存储表面材料颜色的位图。最终绘制的场景可以显示在输出设备上，或是从GPU的存储器重新复制到宿主处理器中。
可编程顶点处理器和碎片处理器提供了许多相同的功能和指令集。但是，大部分GPU编程人员只将碎片处理器用于通用计算任务，因为它通常提供更优的性能，而且可以直接输出到存储器。
利用碎片处理器进行计算的一个简单例子是对两个向量进行相加。首先，我们发布一个大三角形，其所包含的碎片数量和向量大小(容纳的元素)相同。产生的碎片通过碎片处理器进行处理，处理器以单指令多数据(SIMD)的并行方式执行代码。进行向量相加的代码从存储器中提取两个待加元素，并根据碎片的位置进行向量相加，同时为结果分配输出颜色。输出存储器保存了向量和，这个值在下一步计算中可以被任意使用。
可编程碎片处理器的ISA类似于DSP或Pentium SSE的指令集，由四路SIMD指令和寄存器组成。这些指令包括标准数学运算、存储器提取指令和几个专用图形指令。
GPU与DSP的比较
GPU在几个主要方面有别于DSP架构。其所有计算均使用浮点算法，而且目前还没有位或整数运算指令。此外，由于GPU专为图像处理设计，因此存储系统实际上是一个二维的分段存储空间，包括一个区段号(从中读取图像)和二维地址(图像中的X、Y坐标)。
此外，没有任何间接写指令。输出写地址由光栅处理器确定，而且不能由程序改变。这对于自然分布在存储器之中的算法而言是极大的挑战。最后一点，不同碎片的处理过程间不允许通信。实际上，碎片处理器是一个SIMD数据并行执行单元，在所有碎片中独立执行代码。
尽管有上述约束，但是GPU还是可以有效地执行多种运算，从线性代数和信号处理到数值仿真。虽然概念简单，但新用户在使用GPU计算时还是会感到迷惑，因为GPU需要专有的图形知识。这种情况下，一些软件工具可以提供帮助。两种高级描影语言CG和HLSL能够让用户编写类似C的代码，随后编译成碎片程序汇编语言。这些语言编译器可以从Nvidia和微软公司的网站免费下载。尽管这些语言大大简化了描影汇编代码的编写，但实际应用时仍然必须使用图形API来建立并发布计算任务。
Brook是专为GPU计算设计，且不需要图形知识的高级语言。因此对第一次使用GPU进行开发的工作人员而言，它可以算是一个很好的起点。Brook是C语言的延伸，整合了可以直接映射到GPU的简单数据并行编程构造。
经GPU存储和操作的数据被形象地比喻成“流”(stream)，类似于标准C中的数组。核心(Kernel)是在流上操作的函数。在一系列输入流上调用一个核心函数意味着在流元素上实施了隐含的循环,即对每一个流元素调用核心体。Brook还提供了约简机制，例如对一个流中所有的元素进行和、最大值或乘积计算。
Brook编译器是一个源到源的编译器，能够把用户的核心代码映射成碎片汇编语言，并生成C++短代码，从而链接到大型应用中。这允许用户只把应用中的性能关键部分输入Brook。Brook还完全隐藏了图形API的所有细节，并把GPU中类似二维存储器系统这样许多用户不熟悉的部分进行了虚拟化处理。
用Brook编写的应用程序包括线性代数子程序、快速傅立叶转换、光线追踪和图像处理。Brook的编译器和实时运行环境可以从网站上免费获取。
sourceforge.net网站也为许多此类应用提供资源。利用ATI的X800XT和Nvidia的GeForce 6800 Ultra型GPU，在相同高速缓存、SSE汇编优化Pentium 4执行条件下，许多此类应用的速度提升高达7倍之多。
对GPU计算感兴趣的用户努力将算法映射到图形基本元素。类似Brook这样的高级编程语言的问世使编程新手也能够很容易就掌握GPU的性能优势。访问GPU计算功能的便利性也使得GPU的演变将继续下去，不仅仅作为绘制引擎，而是会成为个人电脑的主要计算引擎。
图：执行两向量相加的简单Brook代码示例。
Brook支持所有带附加流数据的C句法,
流数据存储于GPU的存储器中，
而核函数也在GPU上执行。
　　BrookGPU是斯坦福大学一个相当有趣的项目，它可以为你展现当前GPU的强大性能，虽然目前GPU尚不能完全取代CPU，但是这个编译器为GPU模拟CPU的一般应用提供了一个运行环境。
　　BrookGPU是一个编译器和实时系统，可以为当前GPU提供简单的类似C的编程环境。一个运行在NVIDIA GeForce FX 5900 Ultra的shader程序运算速度可达20 GFLOPS，相当于 10GHz的Pentium 4，而且图形系统的内存带宽为25.3 GB/sec，相比Pentium 4只有5.96 GB/sec。从这两个原始数据不难看出GPU是一个非常快的运算引擎，但是由于GPU的专用性，所以在其上编程相当痛苦。BrookGPU在C基础之上增加了简单的数据并行语言，可以让程序员指定在GPU上运行的部分特定代码，而BrookGPU编译器来负责实时运行其他的部分。
　　首先声明，我个人并不是Programmer，感觉当前GPU长于复杂的矢量(矩阵)计算(Vertex shader的强大应该就是几何转换的可编程性能)?因此从事一般的此类计算应该有很高的效率？
　　我还记得Epic的首席程序员Tim Sweency说过未来随着CPU功能不断增强，特定应用的GPU将会消失。也许未来终究将会有一个CPU/GPU从事所有的运算?
好消息！！！
SIGGRAPH 2007大会上，NVIDIA正式宣布了第三版GPU编程教材：《GPU Gems 3》(图形处理器精粹第三部)。
NVIDIA表示，《GPU Gems 3》的目的是让软件开发和科学研究人员充分挖掘GPU的并行运算潜力，同时其中描述的技术还能帮助游戏开发人员创造极其逼真的人物角色、更好的光照效果和粘贴渲染合成效果，并增强金融模拟、金融分析，甚至病毒检测，尤其是NVIDIA CUDA编程架构等非图形类应用。
《GPU Gems 3》英文原版有1000页之多，是GPU硬件编程发烧友的必备宝典。除了NVIDIA，来自业界的20多家公司也都参与了该书的编辑，包括苹果、微软研究院、世嘉、Crytek、EA、Infinity Ward等等，另外还有不少学术机构的贡献，比如美国康乃尔大学、伊利诺斯大学、英国达特茅斯学院、伦敦帝国理工学院、日本东京大学等。
Crytek首席图形程序员表示：《GPU Gems》系列汇集了下一代3D引擎所需要的最关键的运算法则。
《GPU Gems》头两部的中文版分别由人民邮电出版社和清华大学出版社发行，第三部的中文版暂时没有消息。
Arstechnica刊登了一篇名为NVIDIA on the highwire: the GeForce 8800 and beyond的文章,该文主要援引Nvidia投资关系部副总裁Mike Hara最近在投资会议上的言论对Nvidia的未来进行了分析，包括未来的独立显卡市场，竞争对手AMD/ATi R600发布，Intel未来的独立GPU产品以及高性能计算市场等等。
首先，Hara重申了Nvidia的产品周期策略，即每年秋季发布高端产品，在来年年初发布中端产品，低端产品随后在跟进。按照这个策略来看，目前Nvidia正摘主打低端产品市场，并准备秋季的高端产品。Hara进一步透漏，在今秋我们不仅将看到后G80高端产品的发布，还将看到Nvidia的首个65nm GPU。从90nm到65nm的过渡将使得Nvidia在工艺上和AMD/ATi并驾齐驱，同时有更大的空间提升性能和产品利润，当然这和取决于AMD/ATi下一代产品的进展情况。
在谈到工艺技术时，Hara强调说Nvidia提高产能的长期技巧就是处理器工业常用的可配置性。简而言之，就是Nvidia工厂对于产品进行功能测试，如果所有像素流水线都能开启，那么将标识为高端产品，如果有些流水线无法工作，那么工厂将屏蔽某些电路，将该芯片配置成更少流水线，更低时钟的低端产品。
Hara同时也和投资者坦承，Nvidia要继续保持20%的年增长率，必须面临三个挑战:
1.与AMD/ATi联军，以及计划引入独立GPU的Intel相比，Nvidia毫无疑问是三强中最弱的一家，而且Nvidia是唯一一家没有类似Fusion计划，CPU+GPU产品长期计划的厂商。
2.独立图形已成成熟产业，没有多少提升的市场空间
3.Intel未来的独立GPU将蚕食独立GPU市场不多的空间
但Hara告诉投资者，关于人们对Nvidia没有CPU/GPU整合产品的担心是多余的:第一，CPU+GPU产品只适用于低端产品；第二，即使在低端市场，该产品也将不会有太大作为。Hara认为他之所以得出以上结论，是因为独立GPU非常复杂，如果非要将GPU和CPU整合在一个内核中，那么你必须割舍某些重要功能。他不认为这种产品有什么太大价值，特别是与整合图形功能的芯片组相比而言。
Hara和JP Morgan说:&即使有这么个产品，那也将是Intel和AMD之间的战争，我不认为它将改变独立GPU市场。&
接着，正如上述，Hara谈到了Nvidia的重点市场，独立GPU市场。也许是受到CPU入侵GPU市场的影响，Hara长篇大论谈了GPU将是计算机的下一波浪潮，而CPU将成为过去。
Hara表示，商业计算机市场和笔记本计算性能需求的萎缩正是Nvidia与Intel和AMD/ATi相对抗的动力所在。相比而言，在消费和娱乐市场需要不断提高，而正促使Nvidia将在不久后进入GigaFLOP时代。
Hara说:&我们正在驱动你们的体验，尝试看看你们获得体验的东东吧--那正是我们的平台。&
Hara对Nvidia前景表示乐观:&GPU不仅仅是用户体验，而且是未来娱乐和医疗图像等所有体验的下一个重点所在。&这也许是Nvidia可以保持在独立GPU市场高速增长的原因所在。
而在消费市场，Hara还举例说明了Vista 3D界面，高分视频以及网络视频的流行作为证据，强调未来无论是桌面还是笔记本市场，对独立GPU产品仍有更高需求。
Hara和德国银行证券说:&我宁愿相信高性能市场占40%，而低端市场占60%。&
Nvidia将独立GPU市场增长冀望于用户体验，GFLOPS性能的跨越则允许Nvidia继续拓展核心消费GPU业务。
Hara说:&我们正在改变核心市场，使之成为娱乐驱动空间，这样我们可以将核心市场以外技术带到我们前所未有的境界。&
Hara还表示Nvidia将继续开拓石油，天然气和医疗图像市场，很显然Nvidia非常重视高性能计算市场。而目前，Nvidia将Intel的Larrabee图形项目视为最大的威胁所在。
但Hara仍然保持自信，并对Larrabee提出了批评，诸如缺乏成熟驱动，代码以及软件生态系统等等。他说，Larrabee实际上就是多内核的x86。
总之，Nvidia在面临Intel和AMD两强的竞争中，仍然在高空中孤独而又危险地走着钢丝。Nvidia必须严格执行产品策略，并维持在独立GPU市场的领先地位，它同时还要追逐高性能计算市场，Nvidia必须保持两手都要硬，否则将没有机会用绿色眼睛看到驱动地球所有像素时代的到来。
在加州San Jose召开的微处理器2007论坛上,Nvidia公司架构主管Nicklls称:“图形处理器只是放在一边,许多人都提出了这个伟大的创意:嘿,让我们用GPU做些事情.”
该架构主管指出,当图形处理器未执行图形相关任务时,GPU可与中央处理器并行执行计算任务.从而使每秒浮点计算次数达到2000亿.
Nvidia公司发布了名为“统一计算设备架构”软件(CUDA)的测试版,该软件将于今年下半年正式推出.CUDA可让开发商编写指令程序,以便让GPU执行通常由CPU执行的计算任务.Nvidia公司表示,将GPU当作CPU并不一种新思想,但Nvidia公司的新软件能使开发商更容易地实现目标.
CUDA只能用于一定型号的图形处理器,包括Nvidia的GeForce ,还有06年11月发布的FX .
Nvidia公司指出,用户购买GPU的目的是图形处理,但在PC的绝大部分工作时间中它是闲置的,如果你充分发挥了GPU的功能,你的电脑就能成为一台大功率、高性能的并行计算系统.”
siggraph 2007 刚刚开完不久，作为一个大部分工作都是在Nvidia图形卡上进行OpenGL开发的技术人员，我对这二者在siggraph2007上的动作都非常关注，其中令人兴奋的消息是GPU Gems 3的发布和OpenGL 3的发布。下面简单介绍一下。
GPU Gems&&3 是 nvidia公司的 GPU&&Gems系列的延续，其中大部分文章的作者都是Nvidia公司的，研究范围相等广泛，技术也相当不错，给出了当前GPU发展的最新技术，跟另一巨头AMD.ATI(好别扭)所出的ShaderX系列可以说代表了当前最先进的Real-Time渲染技术。记得前两本都是公司第一时间从亚马逊网站邮购回来的，这次不知道能不能先睹为快。nvidia公司在其网站给出了18、30、38章供下载。下面是它的书目：
& & Chapter 1: Generating Complex Procedural Terrains Using the GPU
& & Chapter 2: Animated Crowd Rendering
& & Chapter 3: DirectX 10 Blend Shapes: Breaking the Limits
& & Chapter 4: Next-Generation SpeedTree Rendering
& & Chapter 5: Generic Adaptive Mesh Refinement
& & Chapter 6: GPU-Generated Procedural Wind Animations for Trees
& & Chapter 7: Point-Based Visualization of Metaballs on a GPU
& & Chapter 8: Summed-Area Variance Shadow Maps
& & Chapter 9: Interactive Cinematic Relighting with Global Illumination
& & Chapter 10: Parallel-Split Shadow Maps on Programmable GPUs
& & Chapter 11: Efficient and Robust Shadow Volumes Using Hierarchical Occlusion Culling and Geometry Shaders
& & Chapter 12: High-Quality Ambient Occlusion
& & Chapter 13: Volumetric Light Scattering as a Post-Process
& & Chapter 14: Advanced Techniques for Realistic Real-Time Skin Rendering
& & Chapter 15: Playable Universal Capture
& & Chapter 16: Vegetation Procedural Animation and Shading in Crysis
& & Chapter 17: Robust Multiple Specular Reflections and Refractions
& & Chapter 18: Relaxed Cone Stepping for Relief Mapping
& & Chapter 19: Deferred Shading in Tabula Rasa
& & Chapter 20: GPU-Based Importance Sampling
& & Chapter 21: True Impostors
& & Chapter 22: Baking Normal Maps on the GPU
& & Chapter 23: High-Speed, Off-Screen Particles
& & Chapter 24: The Importance of Being Linear
& & Chapter 25: Rendering Vector Art on the GPU
& & Chapter 26: Object Detection by Color: Using the GPU for Real-Time Video Image Processing
& & Chapter 27: Motion Blur as a Post-Processing Effect
& & Chapter 28: Practical Post-Process Depth of Field
& & Chapter 29: Real-Time Rigid Body Simulation on GPUs
& & Chapter 30: Real-Time Simulation and Rendering of 3D Fluids
& & Chapter 31: Fast N-Body Simulation with CUDA
& & Chapter 32: Broad-Phase Collision Detection with CUDA
& & Chapter 33: LCP Algorithms for Collision Detection Using CUDA
& & Chapter 34: Signed Distance Fields Using Single-Pass GPU Scan Conversion of Tetrahedra
& & Chapter 35: Fast Virus Signature Matching on the GPU
& & Chapter 36: AES Encryption and Decryption on the GPU
& & Chapter 37: Efficient Random Number Generation and Application Using CUDA
& & Chapter 38: Imaging Earth’s Subsurface Using CUDA
& & Chapter 39: Parallel Prefix Sum (Scan) with CUDA
& & Chapter 40: Incremental Computation of the Gaussian
& & Chapter 41: Using the Geometry Shader for Compact and Variable-Length GPU Feedback
& & 我对它的8、10、11、41章比较感兴趣，呵呵，都是阴影相关和新出的Geometry Shader应用的。
& & OpenGL 3.0是OpenGL ARB组织今年的重头戏之一。于日正式发布，其specification还要经过协商讨论、正式定稿后，然后由Khronos Group组织进行为期30天的评估后，于9月底对外公开整个规范。其中，OpenGL、OpenGL|ES、GLSL都进行了相应的调整和升级。主要的改变有以下一些部分。
& & GLSL部分的改变包括：将attribute、varying关键词更改成in、out、inout；将单个的uniform变量组装成uniform buffer性质的common结构；内置固定管线的状态不再tracked；sampler2D数组使用image2DArray和filter来代替；预处理增加##和#include语句；OpenGLES增加了lowp、mediump、highp限定词；矩阵增加row_major限定词，允许使用行优先矩阵了；增加了switch语句。
& & 将在结合CgFX的基础上，增加一个创建rendering eEffects的框架---glFX。其目的是为了更好、更容易的创建特效。glFX将支持OpenGL2.1、OpenGL3.0、OpenGL ES 2.0等。并对OpenGL3.0作出优化。
& & OpenGL3.0的改变包括：消除遗留的一些功能，如过程式编程接口(Begin/End）、固定管线的T&L功能和纹理应用方法、客户端的顶点数组方式、选择模式、反馈模式、求职器、累计缓存等；全面转向对象模型，用于提高性能和共享灵活，基本上所有能成型的东东都叫Object的了。如：State Object、Data Oobject、Container Object、Vertex Array Object、Buffer Object、Shader Object、Program Environment object、Program Object、Texture Filter Object、Image Object、Format Object、Rasterization Object、Per-Sample Operations Object、Framebuffer Object、Save/Restore Object、Pack/Unpack Object、Sync/Query Object等。
& & 就总体而言，感觉3的改变相当大，不论是概念、内容、还是接口。我想：这一方面是Khronos Group接受ARB组织后，加快OpenGL发展步伐的表现，另一方面也是DirectX10的快速发展，使得OpenGL从被借鉴者变成了借鉴者，吸收了DirectX中的一些先进的地方和优点，才会痛下决心，作出如此重大的改变。不管怎样，作为一名长期从事OpenGL开发的人员，希望OpenGL能一路走好!
& & 参考链接：
& && && && &&&& && && && &
& && && && &&&
& && && && &&&
24小时热帖
下载小木虫APP
与700万科研达人随时交流}

久游无息网