在现代高性能计算、深度学习和图形处理领域,多GPU配置的服务器变得越来越普遍。对于系统管理员或开发者来说,了解每个GPU的具体信息是至关重要的。本文将介绍几种简便的方法来查看多GPU配置服务器中各个GPU的版本信息。
NVIDIA-SMI命令行工具
NVIDIA系统管理接口(NVIDIA System Management Interface,简称nvidia-smi) 是一个非常强大且易于使用的命令行工具,适用于所有基于NVIDIA GPU的系统。它不仅能够提供有关驱动程序版本的信息,还可以显示运行状态、温度、功耗等详细数据。
要查看多GPU配置服务器上的GPU版本信息,只需打开终端并输入以下命令:
nvidia-smi -L
该命令会列出所有已安装的GPU及其对应的UUID和名称。如果想进一步获取更详细的版本信息,可以使用:
nvidia-smi --query-gpu=driver_version,gpu_name --format=csv
这将输出一个CSV格式的结果,包含每块GPU的驱动版本号和型号名称。
通过Python脚本自动化查询
如果你需要定期监控或者希望以编程方式获取这些信息,那么编写一个简单的Python脚本可能是更好的选择。Python拥有丰富的库支持,特别是对于与硬件交互的任务,例如py3nvml。
首先确保已经安装了py3nvml库:
pip install py3nvml
然后创建一个名为check_gpu_versions.py的文件,并添加如下代码:
import py3nvml.py3nvml as nvml
def print_gpu_info():
nvml.nvmlInit()
device_count = nvml.nvmlDeviceGetCount()
for i in range(device_count):
handle = nvml.nvmlDeviceGetHandleByIndex(i)
name = nvml.nvmlDeviceGetName(handle).decode('utf-8')
driver_version = nvml.nvmlSystemGetDriverVersion().decode('utf-8')
print(f"GPU {i}:")
print(f"tName: {name}")
print(f"tDriver Version: {driver_version}")
if __name__ == "__main__":
print_gpu_info()
运行此脚本将会打印出所有GPU的名称和驱动版本。这种方法特别适合集成到更大的应用程序或自动化流程中。
使用第三方软件
除了上述两种方法外,还有一些专门设计用于管理和监控GPU性能及状态的第三方应用程序,如GPU-Z、HWiNFO等。虽然它们主要用于Windows操作系统,但也有Linux版本可供选择。
这些软件通常提供了更加直观友好的用户界面,不仅可以查看GPU的基本信息,还能实时跟踪其工作负载、温度变化等情况。在服务器环境中部署额外的GUI工具可能不是最优解,因此推荐仅当确实需要图形化展示时才考虑使用。
对于大多数情况下,直接使用NVIDIA官方提供的nvidia-smi命令行工具是最简单有效的方式来查看多GPU配置服务器中的各个GPU版本信息。而对于有更高需求或特定应用场景,则可以通过编写Python脚本来实现自动化的信息收集,甚至借助于专业级的第三方软件进行深入分析。
本文由阿里云优惠网发布。发布者:编辑员。禁止采集与转载行为,违者必究。出处:https://aliyunyh.com/180682.html
其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。