阿里云PAI深度学习TensorFlow图像识别例子完整流程及出错案例

没看过视频的兄弟,给出视频地址https://help.aliyun.com/video_detail/58290.html?spm=5176.video54948.6.601.e10kzY   最好还是先看一遍视频,讲的还是比较详细的。摆出图像识别例子地址:https://help.aliyun.com/document_detail/58277.html?spm=5176.doc51800.6.567.YNAdBY

代码及相关资源下载地址:https://help.aliyun.com/document_detail/51800.html?spm=5176.doc58277.6.581.UeqVXk

我也是刚接触PAI,为了熟悉PAI和大家一样,找到了这个例子,头疼的是跑了快两天,一直报错,简直进入了人间炼狱,可能因为是菜鸟一枚,对于视频中没有提及的细节,自己没有处理好,导致不停得走弯路,为了正在寻找解决方案的大兄弟们能够少走弯路,我首先给出一套应该可以运行的流程,在讨论一些报错的案例。

废话不多说,直接来套流程:

1.先把OSS中的文件放好(很关键,好多错误都出于此)


在我们创建的Bucket下创建者四个文件夹。文件夹名字就这样不要改。check_point中什么都不放,cifar-10-batches-py中放入下图文件


同样的名称保持不变,这里提示一下,开始我并不知道解压过的cifar-10-python.gz还能再解压,于是乎就在cifar-10-batches-py中只放一个cifar-10-python文件,这样结果就是一直报错。predict_code,和train_code分别放cifar_predict_pai.py和cifar_pai.py。

2.创建实验,拖需要的组件


这里最好是用TensorFlow(V1.0)版本,有网友实验用V1.1和V1.2跑不成。

3.设置TensorFlow-1(训练模型)


(1)python代码文件选train_code目录下的cifar_pai.py

(2)数据源目录选cifar-10-batches-py这个文件夹(一定是选这个文件夹,而不是文件夹下的子文件)。

(3)输出目录选check_point

到此,TensorFlow-1模型的信息就设置好了

4.设置TensorFlow-2(预测模型)


与设置TensorFlow-1模型不同点只有一个,就是python代码文件的选取,这里选predict_code中的cifar_predict_pai.py,TensorFlow-2面o型的其余两项与设置TensorFlow-1模型一样。

5.恭喜,可以运行了,先运行TensorFlow-1模型,再运行TensorFlow-2


点击执行该节点,运行完之后再执行TensorFlow-2节点。在查看日志中的logview中观察结果以及训练过程。


分割线==========================================================================

这里解释下出错案例(我在实验中遇到的问题)

案例1.设置python代码文件路径时没有选项:

原因:OSS新建Bucket时要选区域华东2,不要选其他的


案例2.


出现这种情况是因为cifar-10-batches-py文件夹中没有按上面流程步骤1中的标准放置文件,可能放了多余的文件或者缺少相关文件。

案例3.


这种结果跟2中的原因相同,运行的没有结果,按照案例2的修改方式就可以解决。

案例4.


这是因为在选取数据源目录时选取的是cifar-10-batches-py文件夹中的子文件,应该选取cifar-10-batches-py这个文件夹,不要选取目录下具体的子文件


最后感谢和我一起犯错一起解决问题的大兄弟“情笔金坚------铜就是铜的”,也是因为解决这个问题才荣幸的认识到这个幽默的大兄弟。

猜你喜欢

转载自blog.csdn.net/qq_36076233/article/details/77918504