原网站:https://devblogs.nvidia.com/increase-performance-gpu-boost-k80-autoboost/

由于我主要使用nvidia-smi,故nvcc不做了解...有需要的可以参考原网站

NVIDIA®GPU Boost™是NVIDIA®GeForce®和Tesla®GPU上的一项功能,可在有足够的功率和散热空间的情况下通过提高GPU内核和内存时钟速率来提高应用程序性能)。对于Tesla GPU,GPU Boost是针对在集群上运行的计算密集型工作负载而定制的。在这篇文章中,我将更详细地描述GPU Boost,并向您展示如何在应用程序中利用它。我还介绍了Tesla K80 autoboost,并演示了它可以自动匹配显式控制的应用程序时钟的性能。

Tesla GPU的目标是特定的功率预算,例如Tesla K40的TDP(热设计功率)为235W,Tesla K80的TDP为300W。这些TDP额定值是上限,图1中的图表显示许多HPC工作负载并不接近此功率极限。特斯拉的NVIDIA GPU Boost可让用户通过使用可用功率余量来选择更高的图形时钟速率,从而提高应用程序性能。

                    图1:实际应用程序的平均GPU功耗

NVIDIA GPU Boost通过应用程序时钟设置公开给Tesla加速器使用,并且在新的Tesla K80加速器上也可以通过新的autoboost功能启用,该功能默认启用。用户或系统管理员可以通过以下任一方法禁用自动升压功能并为应用程序手动设置正确的时钟:

nvidia-smi  在节点上本地运行命令行工具

使用NVIDIA系统管理界面控制GPU Boost

您可以 nvidia-smi  用来控制应用程序时钟,而无需对应用程序进行任何更改。

您可以通过将查询选项(-q)  传递给来显示当前应用程序时钟设置nvidia-smi。使用  -i 和显示选项(-d),您可以过滤此视图以仅显示特定GPU的时钟信息。

nvidia-smi -q -i -d CLOCK

==============NVSMI LOG==============

Timestamp                           : Sat May   ::
Driver Version : 384.81 Attached GPUs :
GPU ::00.0
Clocks
Graphics : MHz
SM : MHz
Memory : MHz
Video : MHz
Applications Clocks
Graphics : MHz
Memory : MHz
Default Applications Clocks
Graphics : MHz
Memory : MHz
Max Clocks
Graphics : MHz
SM : MHz
Memory : MHz
Video : MHz
Max Customer Boost Clocks
Graphics : N/A
SM Clock Samples
Duration : 26.64 sec
Number of Samples :
Max : MHz
Min : MHz
Avg : MHz
Memory Clock Samples
Duration : 26.64 sec
Number of Samples :
Max : MHz
Min : MHz
Avg : MHz
Clock Policy
Auto Boost : On
Auto Boost Default : On

在更改应用程序时钟之前,您需要将GPU置于持久性模式并查询可用的应用程序时钟速率。持久模式可确保即使GPU上没有运行CUDA或X应用程序,驱动程序仍保持加载状态。这将保持当前状态,包括请求的应用程序时钟。持久性模式对于使应用程序时钟更改持续到应用程序运行是必需的。使用以下命令行启用持久性模式(对于GPU 0)。可以看出GPU0的对应频率为Graphics : 562 MHz,Memory : 2505 MHz

sudo nvidia-smi -pm ENABLED -i -smi -pm ENABLED -i

之后可以查看频率

nvidia-smi -q -i , -d SUPPORTED_CLOCKS

Timestamp                           : Sat May   ::
Driver Version : 384.81 Attached GPUs :
GPU ::00.0
Supported Clocks
Memory : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Memory : MHz
Graphics : MHz GPU ::00.0
Supported Clocks
Memory : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Graphics : MHz
Memory : MHz
Graphics : MHz

请注意,支持的图形时钟频率与特定的内存时钟频率相关,因此在设置应用程序时钟时,必须同时设置内存时钟和图形时钟。使用 -ac 命令行选项执行此操作

sudo nvidia-smi -ac , -i 0

 Applications clocks set to "(MEM 3004, SM 875)" for GPU ::00.0 All done

可以使用 -rac  (“重置应用程序时钟”)选项重置默认值

$ sudo nvidia-smi  -rac -i
All done.

为避免在多用户环境中出现麻烦,更改应用程序时钟需要管理特权。但是,系统管理员可以通过将应用程序时钟许可权设置为 UNRESTRICTED  使用   -acp  (“应用程序时钟许可权”)选项来  放宽此要求,以允许非管理员用户更改应用程序时钟  nvidia-smi

$ sudo nvidia-smi -acp UNRESTRICTED -i
Applications clocks commands have been set to UNRESTRICTED for GPU ::00.0
All done.

请注意,建议使用应用程序时钟设置。如果由于散热或功耗等原因,GPU无法在选定的时钟上安全地运行,它将动态降低时钟。您可以使用来查询是否发生了这种情况   nvidia-smi -q -i -d PERFORMANCE 。此行为可确保即使应用程序时钟设置得太高,您也始终可以获得正确的结果。

最新文章

  1. JS学习:第二周——NO.3盒子模型
  2. Browsersync — 省时的浏览器同步测试工具
  3. jQuery使用方法
  4. CentOS 6.5 安装Nginx 1.7.4
  5. Auguse 2nd, Week 32nd Tuesday, 2016
  6. Linux 下 的 cc 和 gcc
  7. Robotium -- 针对apk包的测试
  8. Linux 删除空行
  9. 服务端NETTY 客户端非NETTY处理粘包和拆包的问题
  10. tls session resumption
  11. UIImage创建图片的两种方式的区别
  12. Redis 学习笔记-应用场景
  13. YII 多表联查 纵表
  14. Java中使用到的锁
  15. MySql left join 多表连接查询优化语句
  16. Python学习基础(二)——集合 深浅拷贝 函数
  17. 如何获取sdcard的总容量
  18. java.util.ConcurrentModificationException的解决办法
  19. Linux中的链接文件_软链接和硬链接
  20. linux环境下(非UI操作)所有软件的安装与卸载总结

热门文章

  1. day82 序列化器-Serializer
  2. python使用数组实现链表的策略分析
  3. Redis RDB 分析工具 rdbtools 说明
  4. 【网鼎杯2018】fakebook
  5. MYSQL 之 JDBC(十二): 处理Blob
  6. OSI物理层之数据通信基础知识
  7. bzoj3375[Usaco2004 Mar]Paranoid Cows 发疯的奶牛*
  8. 修改虚拟机中的centos系统分辨率
  9. JAVA 实现将多目录多层级文件打成ZIP包后保留层级目录下载 ZIP压缩 下载
  10. iframe子页面取父页面的变量问题