1、上传数据集问题
问题描述:通过导入已有数据集方式上传,刷新之后未显示数据集文件
答:这里是将数据集文件先压缩成zip包的形式上传,需要注意数据集最外层目录的名称跟压缩后的名称要一致,否则会导上传之后看不到数据文件的情况,如下图:
2、上传算法问题
问题描述:算法文件里面如何处理平台所需要的参数
答:需要在启动任务的脚本里面添加接受平台参数的处理,对模型、数据集、日志输出等文件的读取写入的目录都是通过这些参数来实现的,用户也可以根据自己的需要添加其他的参数满足任务的运行,如下图:
代码部分如下:
import argparse
# 平台默认参数
parser = argparse.ArgumentParser(description='ArgUtils')
parser.add_argument('--train_model_out', type=str, default='/workspace/out', help="训练模型输出")
parser.add_argument('--data_url', type=str, default='/dataset', help="训练数据集路径")
parser.add_argument('--val_data_url', type=str, default='/modeldir', help="验证数据集路径")
parser.add_argument('--model_load_dir', type=str, default='/valdataset', help="接收训练模型路径")
parser.add_argument('--train_out', type=str, default='/workspace/log', help="训练输出")
parser.add_argument('--train_visualized_log', type=str, default='/workspace/visualizedlog', help="训练的可视化日志路径")
parser.add_argument('--gpu_num_per_node', type=int, default=1, help="gpu卡数")
parser.add_argument('--num_nodes', type=int, default=1, help="节点数")
parser.add_argument('--node_ips', type=str, default='', help="节点ip")
3、训练任务问题
问题描述:训练任务的启动命令
答:启动命令需要注意目录和环境,环境要注意选择的镜像里面是否使用了虚拟环境管理,如果有则需要先激活虚拟环境(source activate 环境名称)没有则可以直接通过python启动;启动脚本的目录使用相对目录,按照用户选择的算法的最外层目录开始,如下所示:
按上图所示,如果需要执行的启动脚本tf_cnn_benchmarks.py就是python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py
如果虚拟环境的名字是py38,完整的启动命令就是source activate py38 && python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py
4、终端训练问题
问题描述:连接的终端一段时间之后会断开
答:在终端服务正常运行的情况下,如果出现断开现象,可能跟本地网络波动、防火墙等安全软件的干扰、远程连接工具bug等有关、这个需要根据具体情况进行排查,请及时在微信群中反馈给管理员。
问题描述:连接的终端断开会导致正在运行的任务中断
答:可以把运行任务的方式改成后台运行
比如 python xxx.py 改成 python xxx.py &或者 nohup python xxx.py &
若有其他任何问题,请在微信群中进行反馈。