GPU云计算市场

这两天正式开始用AutoDL炼丹。感觉还是比较容易上手的。

Dashboard

Tensorboard

貌似有点过拟合了。

忘了怎么找到这个AutoDL的,11-11前有重新装机的打算,准备装一个GPU搞DL训练。但是好几部分原因,搁置了装机计划,改为线上租赁。

现在用的是一个¥0.6/h的1080ti实例跑一下facenet的训练,作为前期的学习和验证足够了。它最低貌似能到0.49/h (TITAN),但不太好抢。这个价格也就每小时一度电左右的费用,自己装机除了硬件费用还要给电费,而且硬件还有贬值,还要自己搭环境,收集数据,没有直接用线上的来的方便。

表格

随便简单采样了一些,发现这个领域还是比较卷的。

算力市场 数据集 备注
AutoDL 共享/百度云/阿里云盘
featurize 共享 可用较少, 没价格优势
智星云 公共
矩池云 1.00/h 起
恒源云 公共/共享 0.60/h 起, 类似autodl, 注册才能看价格
腾讯云 没仔细看

loss反映出的问题

  • train loss 不断下降,test loss不断下降,说明网络仍在学习;
  • train loss 不断下降,test loss趋于不变,说明网络过拟合;
  • train loss 趋于不变,test loss不断下降,说明数据集100%有问题;
  • train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;
  • train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。

ref: Q小白​ https://zhuanlan.zhihu.com/p/136786657