AI深度学习平台常见问题

1、上传数据集问题

问题描述:通过导入已有数据集方式上传,刷新之后未显示数据集文件

答:这里是将数据集文件先压缩成zip包的形式上传,需要注意数据集最外层目录的名称跟压缩后的名称要一致,否则会导上传之后看不到数据文件的情况,如下图:



2、上传算法问题

问题描述:算法文件里面如何处理平台所需要的参数

答:需要在启动任务的脚本里面添加接受平台参数的处理,对模型、数据集、日志输出等文件的读取写入的目录都是通过这些参数来实现的,用户也可以根据自己的需要添加其他的参数满足任务的运行,如下图:

代码部分如下:

import argparse

# 平台默认参数

parser = argparse.ArgumentParser(description='ArgUtils')

parser.add_argument('--train_model_out', type=str, default='/workspace/out', help="训练模型输出")

parser.add_argument('--data_url', type=str, default='/dataset', help="训练数据集路径")

parser.add_argument('--val_data_url', type=str, default='/modeldir', help="验证数据集路径")

parser.add_argument('--model_load_dir', type=str, default='/valdataset', help="接收训练模型路径")

parser.add_argument('--train_out', type=str, default='/workspace/log', help="训练输出")

parser.add_argument('--train_visualized_log', type=str, default='/workspace/visualizedlog', help="训练的可视化日志路径")

parser.add_argument('--gpu_num_per_node', type=int, default=1, help="gpu卡数")

parser.add_argument('--num_nodes', type=int, default=1, help="节点数")

parser.add_argument('--node_ips', type=str, default='', help="节点ip")



3、训练任务问题

问题描述:训练任务的启动命令

答:启动命令需要注意目录和环境,环境要注意选择的镜像里面是否使用了虚拟环境管理,如果有则需要先激活虚拟环境(source activate 环境名称)没有则可以直接通过python启动;启动脚本的目录使用相对目录,按照用户选择的算法的最外层目录开始,如下所示:

按上图所示,如果需要执行的启动脚本tf_cnn_benchmarks.py就是python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py

如果虚拟环境的名字是py38,完整的启动命令就是source activate py38 && python ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py



4、终端训练问题

问题描述:连接的终端一段时间之后会断开

答:在终端服务正常运行的情况下,如果出现断开现象,可能跟本地网络波动、防火墙等安全软件的干扰、远程连接工具bug等有关、这个需要根据具体情况进行排查,请及时在微信群中反馈给管理员。

问题描述:连接的终端断开会导致正在运行的任务中断

答:可以把运行任务的方式改成后台运行

比如 python xxx.py 改成 python xxx.py &或者 nohup python xxx.py &

这样就可以避免终端断开影响任务的计算


若有其他任何问题,请在微信群中进行反馈。