GPU人工智能队列

一、网页提交作业方式

1)创建训练任务

用户点击左侧菜单栏”训练管理”下的”训练任务”菜单进入训练任务列表(如图1所示)

1 进入训练任务列表

然后点击左上角黄色”创建训练任务”按钮进入创建训练任务页面(如图23所示)

2 点击创建训练任务按钮

3 进入创建任务详情页面

用户填写任务名称、选择使用算法、算法框架、训练数据集、填写运行命令、选择分区和节点规格后点击开始训练,一个新的训练任务就创建完成了。


2)查看训练任务

用户点击训练任务名称进入任务详情列表页面(如图45所示)

4 点击训练任务名称进入任务详情

5 训练任务详情列表

用户点击任务详情右侧的”运行日志”查看任务的运行情况,如果运行失败也可以根据日志排查问题(如图6所示)

6 点击运行日志查看

3)修改训练任务

针对状态不是运行中的任务,用户可以点击”修改”弹出训练任务修改框,调整相应参数,点击”开始训练”,提交一个新任务(如图7所示)

7 修改训练任务

4)保存训练任务输出

针对”运行完成”状态下的任务,可以点击任务右侧的”保存模型”按钮(如图8所示)会显示输出的根目录,然后勾选model-out目录后点击左上角的”保存模型”(如图9所示)之后显示保存模型的弹框,用户点击”新建模型”(如图10所示)然后填写模型名称、选择模型框架、模型格式后点击确定完成模型保存(如图11所示),用户可以点击左侧菜单栏”模型管理”下的”模型列表”菜单查看保存的模型(如图12所示),点击右侧的”下载”按钮将保存的模型下载到本地(如图13所示)

8 点击保存模型

9 勾选输出目录然后点击保存模型

10 点击新建模型开始创建

11 填写模型名称选择模型框架和格式点击确定保存

12 查看保存的模型

13 点击下载模型到本地

二、SSH提交作业方式

1)创建终端环境

用户点击左侧菜单栏“终端训练”下的“远程连接”菜单进入远程连接列表页面(如图1所示)

1 进入远程连接列表

然后点击左上角黄色“新建连接”按钮进入创建远程连接页面(如图2所示)跳出新建连接弹框,用户选择数据集、启动镜像、节点数、资源规格然后点击确认进行创建(如图3所示)

2 点击跳出新建连接弹框

3 填写远程连接信息

2)连接远程环境

创建之后等待连接状态变成“运行中”时(如图4所示)就可以点击左侧的复制按钮复制ssh命令通过终端工具进行远程连接(如图5所示)

4 远程环境运行时复制ssh命令

5 终端工具连接远程环境

3)提交作业

进入远程环境后,挂载的数据集合默认在“/dataset/versionFile/V0001/”目录下(如图6所示),用户可以通过scp命令把本地的算法代码上传到远程环境的”/workspace”目录下(如图7所示),然后开始训练(如图8所示)

6 查看挂载数据集

7 将本地算法scp到终端环境

8开始训练任务

4)保存作业输出

当训练任务运行结束后,可以通过scp命令远程环境里面的输出模型下载到本地(如图9所示)

9 作业输出模型下载到本地