最近需要配置一台CUDA环境深度学习工作站,打算把流程都记录一下,以防每次都得现查。
首先下载Linux镜像,我这里用的是Ubuntu24.04:
https://ubuntu.com/download/desktop
然后制作一个USB镜像启动盘,这次我用的Ubuntu官网推荐的小工具,免安装并且只有3个按钮:选择镜像,选择U盘,烧录! 挺好用的推荐!
balenaEtcher:https://github.com/balena-io/etcher/releases
接下来就是将BIOS选择U盘启动了,各个品牌电脑差异挺大的,按照自己实际情况去操作。然后选择全新安装Ubuntu,多数情况下直接默认选项安装就好。
系统装好后,我习惯先把当前版本的系统软件更新到最新:
sudo apt update
sudo apt upgrade
当前这台工作站是公共的,需要给每个人分配一个帐号,可以在桌面环境操作,也可以通过命令完成,可以参考下边一篇记录:
如果工作站有中文输入需求的话,比如我目前记录这篇博文,还需要加一个中文输入法,可以看我这篇记录:
接下来安装Python环境,不建议直接使用系统的Python来配置各种库,出现了问题太难修复了。建议使用Anaconda,各个环境相互不干扰。Anaconda的安装是通过官网的一个sh脚本:
https://www.anaconda.com/download/success
下载后对其赋予一个执行权限,然后在终端里运行:
sudo chmod +x ~/Downloads/Anaconda3-2025.06-0-Linux-x86_64.sh
~/Downloads/Anaconda3-2025.06-0-Linux-x86_64.sh
根据交互一步一步安装,最后一步询问要不要将Conda加入到开机初始化列表中,建议yes,不然后边每次使用Conda切环境需要手动找Anaconda安装文件夹,很麻烦。
安装完毕后,熟悉Anaconda的可以直接使用Conda来管理Python环境,若不太熟悉的话可以使用图形化的一个工具,在终端输入:anaconda-navigator
建议不要在base环境做开发,最好是每个项目有一个单独的环境,再使用conda安装pytorch,我个人没有按照Pytorch官网指导的使用pip安装,我个人经验是既然使用了Conda就尽量全Conda环境,尽量避免和pip混着用,以免一些未知的问题。在这里需要看下本机CUDA的版本,要做到Python版本、CUDA版本以及Pytorch版本相互保持一致。对应关系表在Pytorch官网可以查到。
经查询我需要安装2.5.1版本的Pytorch:conda install pytorch=2.5.1
接下来我们装个IDE,运行个实例看一看。官网下载VS Code然后使用下列命令安装:
sudo dpkg -i ‘/home/v2x/Downloads/code_1.102.0-1752099874_amd64.deb’
将自己用Anaconda建立的Python环境设为VSCode的默认解释器,按照Anaconda官方指导操作一下:
https://www.anaconda.com/docs/tools/working-with-conda/ide-tutorials/vscode
之后运行一个示例程序,看下pyTorch以及CUDA是否都已经OK:
import torch
flag = torch.cuda.is_available()
name = torch.cuda.get_device_name()
print (flag)
print (name)
从Terminal的输出若看到True以及对应的网卡型号,那么说明基础环境已经完毕。
当需要远程连接到这台设备的话,发现SSH连不上,这是由于Ubuntu安装后默认没有sshd服务端。按照下列指导操作一下即可:
一些其他可能必备的工具:
sudo apt install htop vim
最后再记录一下将U盘烧录成一个启动盘后,怎样恢复。按照通常的格式化format不管在windows还是linux都是解决不了的,可以参考下列记录解决:
https://blog.shuspieler.com/1223/
大致就这些了,祝炼丹顺利!