AI深度学习平台常见问题

当前位置：首页使用指南平台常见问题及解答 AI深度学习平台常见问题

使用指南

AI深度学习平台常见问题

1、上传数据集问题

问题描述：通过导入已有数据集方式上传，刷新之后未显示数据集文件

答：这里是将数据集文件先压缩成zip包的形式上传，需要注意数据集最外层目录的名称跟压缩后的名称要一致，否则会导上传之后看不到数据文件的情况，如下图：

2、上传算法问题

问题描述：算法文件里面如何处理平台所需要的参数

答：需要在启动任务的脚本里面添加接受平台参数的处理，对模型、数据集、日志输出等文件的读取写入的目录都是通过这些参数来实现的，用户也可以根据自己的需要添加其他的参数满足任务的运行，如下图：

代码部分如下：

import argparse

# 平台默认参数

parser = argparse.ArgumentParser(description='ArgUtils')

parser.add_argument('--train_model_out', type=str, default='/workspace/out', help="训练模型输出")

parser.add_argument('--data_url', type=str, default='/dataset', help="训练数据集路径")

parser.add_argument('--val_data_url', type=str, default='/modeldir', help="验证数据集路径")

parser.add_argument('--model_load_dir', type=str, default='/valdataset', help="接收训练模型路径")

parser.add_argument('--train_out', type=str, default='/workspace/log', help="训练输出")

parser.add_argument('--train_visualized_log', type=str, default='/workspace/visualizedlog', help="训练的可视化日志路径")

parser.add_argument('--gpu_num_per_node', type=int, default=1, help="gpu卡数")

parser.add_argument('--num_nodes', type=int, default=1, help="节点数")

parser.add_argument('--node_ips', type=str, default='', help="节点ip")

3、训练任务问题

问题描述：训练任务的启动命令

答：启动命令需要注意目录和环境，环境要注意选择的镜像里面是否使用了虚拟环境管理，如果有则需要先激活虚拟环境（source activate 环境名称）没有则可以直接通过python启动；启动脚本的目录使用相对目录，按照用户选择的算法的最外层目录开始，如下所示：

按上图所示，如果需要执行的启动脚本tf_cnn_benchmarks.py就是python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py

如果虚拟环境的名字是py38,完整的启动命令就是source activate py38 && python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py

4、终端训练问题

问题描述：连接的终端一段时间之后会断开

答：在终端服务正常运行的情况下，如果出现断开现象，可能跟本地网络波动、防火墙等安全软件的干扰、远程连接工具bug等有关、这个需要根据具体情况进行排查，请及时在微信群中反馈给管理员。

问题描述：连接的终端断开会导致正在运行的任务中断

答：可以把运行任务的方式改成后台运行

比如 python xxx.py 改成 python xxx.py &或者 nohup python xxx.py &

这样就可以避免终端断开影响任务的计算

若有其他任何问题，请在微信群中进行反馈。

网站首页

中心概况

资源环境

使用指南

成果展示

运行情况

常用下载

使用指南

平台首次使用说明

使用流程及规范

登录队列及文件上传下载

提交作业

平台常见问题及解答

常用命令

培训及操作视频