密集匹配项目开发填坑日志

2018.9.24

1、很高兴找到图片没有正确对应上这个问题，但是网络又不收敛了。

2、刚刚GPU又爆出来错误，然后将GPU的使用量降低到百分之七十之后恢复正常。

3、看了一下，1080那台电脑训练网路还是没有收敛。。。。。

4、突然发现，还是github里面的那个项目的代码更靠谱一些，经过改进以后的代码costvolum问题解决了，而且代码更加简洁了

2018.9.25

1、成功调整了原来的网络设计部分，可以跑通，加入SE-NET也挺顺利的。但，网络MD不收敛啊啊啊！还在寻找原因，希望晚上能够好一些

2、刚刚增加了专门用于测试的脚本，不知道效果如何。

3、试验learning_rate = 0.0000000001 # 一般小于0.0001。 did not work.

4、change the learning rate to learning_rate = 0.000000001 did not work

5、change the learning rate to learning_rate=0.00000001 did not work

6、change the learning rate to learning_rate=0.0000001 did not work

7、change the learning rate to learning_rate=0.000001 did not work

8、have no way to solve the problem

9、明天准备更换激活函数，leaky-relu，或者用swish。然后把图片不要重采样到那么小。

2018.9.26

1,use bigger image,as W:1024,H256 did not work, so change learning rate to 0.0000000001. I think I meet hard problem.

2、刚刚把所有的relu激活函数换成了swish激活函数，另外，就是把conv_2d ,conv_3d转换为了conv_2d_simplify,

conv_3d_simplify。

2018.9.27

1、写出了一个新的用于批量测试得程序，但是发现有问题不能用。不收敛得问题还在继续，不知道为什么。

2018.9.28

1、计学想办法完善批量测试程序。

2、将路径改为 \\来分割以后，可以正常得运行出来。

3、将每一个block加上reuse。

4、最后加入tf.reset_defaut_graph之后，终于恢复了正常！！！！！！！！！！！

但是这种方法测试非常慢

5、下面就是把这个过程集成到训练得过程中。

6、一个晚上研究一下核线影像怎么生成得，还没有搞明白。

2018.9.29

1,find that the test program is too slow.we have to improve it.

2,the net is still not able to be right

3,I did not use the tf.image.per_image_standardization to train ,learning rate =0.0000001 did not work

4,learning rate = 0.000000000000000000001 # 一般小于0.0001 did not work,still shake

5,learning_rate = 0.00000000000000000000000000000000000000001 # 一般小于0.0001,

6,将训练最后一步的 x=-x改成x=x 现在损失全部变成0了，GG

7、不知道为什么，过一会又恢复了。不过将x改成-x以后，并没有用

8、将bn操作去掉，看看不是不是因为bn定义不规范出的问题。去掉bn以后，没有变化。

9,remove bn and change AdamOptimizer function to RMSPropOptimizer DID NOT WORK

10,change my conv2_simplified, conv3_simplified

11、检查一下开源的GC-NET代码里面的网络和自己写的网络，看看是否有差异。感觉网络没有问题。

12、采用GradientDescentOptimizer,没有用，还是不收敛

14，采用AdadeltaOptimizer，没有用，还是不收敛

15、开始怀疑数据了，而且，开始怀疑是不是确实是时间的问题。

16,根据吴恩达的课程，怀疑我的训练发生了梯度消失的现象，导致梯度消失的原因可能是网络结构太深。

17、我似乎找到了解决问题的方法，问题本身就是梯度消失核梯度爆炸的问题。

2018.9.30

1,add some way to average loss .but it did not work

2.suspect wheather I initiate all the paracter all the time

3, program begin to show good performance!!!!!! congratulation!! thanks to andrewNg

4、现在的任务就是能够进行批量测试，然后将图片保存下来。

5、注意在训练的时候添加上退化学习率。

6、批量测试程序写完了，现在测试测试效果。

7、今天收获挺多，搞定了大boss收敛性问题，还有就是也可以进行批量的快速测试了。很好

2018.10.1

1、早上搞定了将SE-NET从二维计算拓展为三维的过程，不错。但是我发现加入这样的计算后，因为循环的增加，使得时间成本增加了。计算成本成为一个不可忽视的问题。

2、tensorflow游乐场是一个学习调整超参数的好地方，要积极应用。

3、现在的几个主要的任务和问题是。1、学习分布式训练方法，并进行实验。2、学习学长的核线影像生成方法和深度图生成方法的程序。3、完善可视化工作，可以将中间的步骤参数和图片输出来，将训练的loss保存起来。

4、主要要保存的中间变量有，loss，running time。这两个最好都能可视化。

5、还有一个重要的工作就是将FlyingThings3D的数据运用进来，使得数据量有所增加。

6、将学习率设置为0.0001，损失降为1的时候变得很难继续下降。

7、将图片大小调整为1024 256，深度调整为192，看看运算速度。GPU受不了，崩溃了。改成原来图像大小的一般进行尝试。学习率也变成了0.0001.

8，将图片减小一倍，变成512，128后还是出问题了。OOM问题，所以又调整小一倍。

9、下面开始进行tensorflow分布式训练的学习，还有就是我觉得学长的程序可能到时候会出很多问题，我觉得这几天有必要重新写一遍。咱们不急，现在才开学一个月。

10、我发现每次损失下降接近1之后，就很难继续下降下去，而且，输出来的测试图片的效果也不好。

11、现在学习率虽然到0.0001,但是还是出现在1附近难以下降的问题，另外，我应该搞定了记录scale等信息用于tensorboard可视化。

2018.10.2

1、先比较一下两种不同的conv，时间会不会有所不同。在使用conv2d和conv3d的情况下，时间大概在0.7-0.8秒。在使用conv2dsimplify和conv3dsimplify的情况下，时间居然是0.9秒左右。sad。为什么和说好的不一样啊。

2,将activationfunction，conv2，conv3的模式控制起来，能够简单的选择选择哪种激活函数，是否选择简化的conv方法。

3、那么下面还要研究的东西。1、数据的生成方法。2、分布式计算方法。3、如何继续降低损失。

4、刚刚改进summary数据的问题的时候，发现可能不能直接存储影像，因为维数不对。

5、将train_writer = tf.summary.FileWriter(logs_train_dir，sess.graph)改成train_writer = tf.summary.FileWriter(logs_train_dir)之后，成功。

觉得这个图说的还比较好。

7、开始学习如何生成核线影像。

8、核线影像的程序今天跑了跑，感觉效果应该没问题。但是还存在两方面的问题，一个是这个程序的速度还不够快。不能够用于大规模的数据，解决这个问题的方法是，1、在性能更好的台式机上进行测试。2、要学会GPU加速。第二个问题就是配置的问题，要有详细的配置opencv3.2的步骤，还有配置Eigen的步骤。

9、现在是2018.10.2.20：12分，再进行一下计划。1、网络的主要问题就是训练到一定程度以后，损失难以继续下降。希望解决的方法是，采用更多的数据，加入Flyingthings3D的数据来进行实验。另外一个就是从理论出发，想办法继续下降损失。2、分布式tensorflow的实验，实现分布式计算。3、如何将mesh变成深度图。学长的源代码还有待学习

2018.10.3

1、今天早上就是完成了用matlab将pfm格式影像转换为png格式影像。主要的方法代码如下，其中readpdf的代码在网上比较好找到。

2、下面就可以批量的将FlyingThings3D的影像用于密集匹配了。

2018.10.4

meet two hard problems:1.the net show that it learns nothing from the data.2,this data maybe not comlpete.

2,I find that if I use double data to save the result, the picture is just black.

2018.10.5

1、今天实验了一下，发现不是数据的问题，至少不全是数据的问题。贴一张错误的图片来看一下。

2、现在还不清楚原因，希望尽快解决。

3、开始从回归函数进行测试，希望找到问题所在。

4、我似乎发现了程序的bug，但是我不确定我的想法是不是对的。我认为在通过costvolume之后，应该用不同的权值去训练不同的costvolume，如果不是这样的话。不管训练多少次，N个costVolume经过相同的权重得到的肯定是相似的结果。但为什么开源的项目不是这样做的呢？

5、接下来记录的语言需要更加准确，而且实验的方案和结果要更加的准确。

密集匹配项目开发填坑日志

猜你喜欢