未知进程占用显存排查

news/2024/9/26 1:16:40

现象

nvitop   查看gpu 使用情况,会看到 ‘No Such Process’ 这样的进程占用了显存;

使用ps 查不到该命令。

 

 

原因

大概率是主进程挂了,或者被终止了,但是子进程仍然占用着显存。

 

解决方法

方法1: 如果确定进程都是python 启动的,执行下面的命令; 如果不是python,但是知道关键字,把python替换成关键字也行。

返回结果里不是root 的进程,大概率就是僵尸进程,判断是不是该进程在占显存, 然后kill 掉即可

ps aux|grep python|awk '{print $2}'|xargs ps -f -p|grep -E '^\w+\s+\w+\s+1\s'

 

方法2:查看设备占用 (不能完全查到)

fuser -v /dev/nvidia*
# 根据返回的结果排查

  

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/46103.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

n模块不支持windows!!!!!!!

需要升级 node 版本。本着不想卸载 node 再重新安装的原则,因为node 的环境配置以及各种相关配置有些繁琐,所以就想着使用命令的方式进行升级。 在网上找了一些升级 node 的命令,最常见的是安装 node 的 n 模块,n 模块 是用来管理 node 版本的。开始下载: npm install -g …

服务器存储瘫痪数据恢复

一、服务器数据恢复故障描述 断电导致整个存储瘫痪,加电后存储无法使用。 经过诊断后认为是断电导致存储阵列损坏。 整个存储是由12块日立硬盘(3T SAS硬盘)组成的RAID-6磁盘阵列,被分成一个卷,分配给几台Vmware的ESXI主机做共享存储。整个卷中存放了大量的Windows虚拟机,…

服务器虚拟机文件被损坏

删除整个存储瘫痪,重启后无法使用,经过诊断后认为误删导致存储阵列损坏。 由于虚拟机的数量很多,每台都验证,所需的时间会很长,因此对整个VMFS卷做检测。在检测VMFS卷的过程中发现有部分虚拟机或虚拟机的文件被破坏。一、恢复数据 1、生成数据; 经过对几台重要的虚拟机验…

惠普 HP存储数据恢复

服务器数据恢复环境: 一台HP LeftHand存储,存储中有3组raid(一组raid0+1,2组raid5),两个卷,12块物理硬盘。服务器故障: 存储中的raid出现故障无法正常工作,进行强制上线的操作后raid依然不可用。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出。对故障存储…

EvilBox---One

Netdiscover发现靶机ip 扫描开放端口详细扫描信息80端口无可用信息,扫描目录访问robots.txt,可能是一个用户Secret是空白目录,继续扫描Secret下有evil.php由于是php文件,猜测目录是否存在文件包含 用wfuzz进行模糊匹配 wfuzz -c -w /usr/share/seclists/Discovery/Web-Cont…

CSP历年复赛题-P9751 [CSP-J 2023] 旅游巴士

原题链接:https://www.luogu.com.cn/problem/P9751 题意解读:在有向图中(每条边的权值是可通过的最早时间,通过每条边所用的时间是1,也可以认为每条边的路径长度是1),在某个k的整数倍时间点start出发,从1号点出发,计算到达n点的最短路径dist,使得dist%k==0(因为从起…

Jmeter中P函数使用tips

如上图中的${__P(login_token)}若要能够被正常使用,需要在该线程组之前增加调试取样器,同时在调试取样器的名称中定义setProperty: 若为了美观而想在调试取样器中的注释中定义setProperty,则必须加入调试后置程序,否则无法调用:

Async 注解底层异步线程

一、前言 开发中我们经常会用到异步方法调用,具体到代码层面,异步方法调用的实现方式有很多种,比如最原始的通过实现 Runnable 接口或者继承 Thread 类创建异步线程,然后启动异步线程;再如,可以直接用 java.util.concurrent 包提供的线程池相关 API 实现异步方法调用。 如…