从网站上读取数据失败

有个自用的工具,从网站上读取数据。

后来发现读取的数据不完全。

调试程序,发现都正常。粗略看了看源程序,也都是对的。又插入许多语句把中间变量写到文件中。发现也没什么大问题。折腾了很久,无果,就先不管了。

大半年过去了,断断续续地偶尔看看程序,也没找到哪里出错了。

前两天,又着手看看这个程序。添加了一堆调试代码,把一些中间变量写出到文件。弄了2天,仍旧没发现问题在哪。但是检查了一个中间变量有时该有数据却不含数据,于是忽地想到了没有为它提供数据,也就是读取下来的网页中不含有效数据,而且根据以前debug方式总是都对,应该是批量读取网页时会不确定地某些网页读取失败。于是添加了代码,把某个网页的读取结果写入文件,然后在正常情况下(不能用debug方式单步去看)批量地读网页,果然那个网页是一个“拒绝访问”的网页,不含正常数据。

反思一下为什么这个问题这么久才搞清楚。一是程序的代码流程复杂,启动了新的线程去读网页,用了若干个类,分别处理不同的职责,所以完全检查程序的流程正确相当费时,就一直怀疑程序流程中哪儿有问题,没重点考虑外部原因。二是该网站以前返回数据还是挺快速可靠的,大概是最近才加入了拒绝异常访问的功能。

总之,重构、保持可维护性很重要。

猜你喜欢

转载自blog.csdn.net/thinktalk/article/details/79419291