跑深度学习nvidia驱动忽然实效的详细解决方法

news/2024/7/8 3:39:42

由于经常跑深度学习,所以对于显卡驱动什么的都还是整的比较明白的不含糊,所以都能跑的起来。但是今天跑pytorch框架时(用到cuda)忽然给我报了个错:

RuntimeError: No CUDA GPUs are available

这给我整不会了,因为用cuda一直都用的好好的今天忽然这样,我首先torch.cuda.is_available()试了一下,果然是false。
然后

nvidia-smi

结果

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

应该是我的ubuntu偷偷趁我不注意把kernel给升级了,导致nvidia的版本不匹配。
运行cat /var/log/dpkg.log |grep nvidia
在这里插入图片描述
看第一行,可以看到从525.116.04升级到525.125.06,然后cat /proc/driver/nvidia/version可以看到nvidia的版本还是旧的116的(因为我已经解决了所以现在是新的了截图不了),所以验证了猜想。
所以接下来,我本着尽量不重装的原则尝试解决方法。
首先重启的时候选择低版本的内核进入然后运行nvidia-smi就变成了

Failed to initialize NVML: Driver/library version mismatch

且再运行cat /proc/driver/nvidia/version就显示找不到路径,方法1 failed。
然后试一下一下两条命令:

sudo apt-get install dkms
sudo dkms install -m nvidia -v 525.125.06

这个nvidia的版本号可以用ls /usr/src查看
在这里插入图片描述
正常来说,百分之七八十的人都是到这一步之后再运行nvidia-smi就可以成功显示了。但是我还不行,我运行第二句显示我已经installed了:

Module nvidia/525.125.06 already installed on kernel 5.xxx-xx-generic/x86_64

所以继续。
最后我是进入bios将security boot关掉就成功了。


http://lihuaxi.xjx100.cn/news/1316559.html

相关文章

[NISACTF 2022]babyserialize(pop链构造与脚本编写详细教学)

目录 一、理清pop链并进行标注 二、如何编写相关脚本 三、过滤与绕过 1、waf的绕过 2、preg_match的绕过 做这道题作为pop链的构造很典型,也很有意思,因为还存在一些其他东西。 打开链接,这种很多类的PHP代码多半是需要构造pop链 一、理…

推荐一个基于Java 的在线网盘开源程序

目录 一、软件简介 二、功能列表 文件列表 画廊模式 视频预览 文本预览 音频预览 PDF 预览 Office 预览 3d 文件预览 生成直链 页面设置 后台设置-登录 后台设置-存储源列表 后台设置-存储源权限控制 后台设置-添加存储源(本地存储) 后台设置-添加存储源 后…

存活探针副本机制2

存活探针副本机制2 本次我们开始 k8s 中存活探针和副本控制器的学习 如何保持 pod 健康 前面我们已经知道如何创建 pod,删除和管理 pod了,但是我们要如何才能保持 pod 的健康状态呢? 我们可以使用 存活探针和副本机制 探针的分类 探针目…

python接口自动化(十九)--Json 数据处理---实战(详解)

简介 上一篇说了关于json数据处理,是为了断言方便,这篇就带各位小伙伴实战一下。首先捋一下思路,然后根据思路一步一步的去实现和实战,不要一开始就盲目的动手和无头苍蝇一样到处乱撞,撞得头破血流后而放弃了。不仅什么…

使用TongRDS替换开源redis 并设置开机自启动

使用TongRDS替换开源redis 并设置开机自启动 1、安装TongRDS2、设置TongRDS开机自启动3、禁用开源redis docker 容器开机自启动 1、安装TongRDS 2、设置TongRDS开机自启动 3、禁用开源redis docker 容器开机自启动

Nginx应用 解决Nginx - 504 Gateway Time-out问题

目录 问题背景 问题分析 解决方法 拓展知识 问题背景 线上有个系统,最前端是设置了nginx作为代理,有个1个请求的接口需要耗时1.1分钟左右,老是出现Nginx - 504 Gateway Time-out的错误。 问题分析 绕过nginx直接访问应用tomcat直接的端口进…

Spark(15):SparkSQL之DataFrame

目录 0. 相关文章链接 1. DataFrame的作用 2. 创建DataFrame 3. SQL 语法 4. DSL 语法 5. RDD 转换为 DataFrame 6. DataFrame 转换为 RDD 0. 相关文章链接 Spark文章汇总 1. DataFrame的作用 Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时…

Docker学习笔记23

Docker Swarm架构: Swarm中以集群(Cluster)为单位进行管理,支持服务层面的操作。 集群是Swarm所管理的对象。 基本概念: 节点(Node)为Swarm集群中的一个Docker Engine实例。其中管理节点&#…