nvitop是一个基于Python开发的NVIDIA GPU实时监控工具,提供彩色界面和动态图表,支持GPU利用率、显存占用、进程详情等关键信息的可视化展示。它依赖NVIDIA Management Library (NVML),兼容Windows和Linux系统,特别适合深度学习、科学计算等高性能计算场景。
GPU Fryer 是一款专为检测GPU性能异常和热失控而设计的工具,通过模拟真实负载的压力测试,精准检测GPU的性能瓶颈和热性能下降。它适用于监控高性能计算集群,确保所有GPU处于最佳性能状态。