证券行业信息化_感悟_我遇到了哪些系统故障?系统故障如何避免?如何看待系统故障?

转自 

https://stanleyyan.wordpress.com/2010/10/06/%E8%AF%81%E5%88%B8%E8%A1%8C%E4%B8%9A%E4%BF%A1%E6%81%AF%E5%8C%96_%E6%84%9F%E6%82%9F_%E6%88%91%E9%81%87%E5%88%B0%E4%BA%86%E5%93%AA%E4%BA%9B%E7%B3%BB%E7%BB%9F%E6%95%85%E9%9A%9C%E7%B3%BB%E7%BB%9F/

证券信息化系列文章作者经历推测:

1995年本科毕业去建行长沙一个支行的计算机应用科工作,1996年读研究生,1999年开网吧,2000年去湘财证券北京的一个营业部工作,2001年著名经济学家金岩石回国加入湘财证券,此时恰逢中国入世,湘财证券和法国里昂证券组件中国首家合资证券公司-华欧国际,本文作者当时被选中随团前往里昂证券香港总部考察数月(作者专注于IT相关系统),后来作者开始供职于华欧国际上海总部,后来又去北京工作,08年10月辞职。

证券行业信息化_感悟_我遇到了哪些系统故障?系统故障如何避免?如何看待系统故障?

昨晚做了一个逻辑鬼怪的“恶梦”:我正在报盘电脑上做操作,突然某人鬼使神差的把墙上报盘电脑电源插头拔了下来,他马上意识到错误,又插上去,但电脑已经重启,在启动之前肯定会中断交易。气氛异常紧张,领导急冲冲的跑近来输入各种应用软件的密码,完成重启后已经过去了3分钟。接下来的“梦境”均围绕着我莫大的压力和负罪感,以及不知道如何为自己开脱而险入绝境。好在及时醒来,才如释重负!
借着这个“恶梦”,说说我遭遇到的各种证券交易系统的事故。

故事1:
2000年4月,北京北三环西路营业部的装修和信息系统改造正在进行,某个原因(记不大清楚了具体故障传导机制了)中午到远程的一个服务部网络中断,在没有查明原因时网络又恢复了。
大家以为舒一口气时,到下午2点到报盘机的网络又中断。大量委托积压着无法报到交易所。气氛异常紧张,门外乱成一锅粥。网络又莫名其妙的恢复。但有半小时委托系统无法报出。
最后计划采用最原始的办法从服务器只接用U盘拷贝委托数据,然后手工插入到交易所报盘机的dbf数据库中。
在插入时再次遇到技术难题,已报委托和未委托无法区分开来,插入委托数据势必把上午已报的数据全部插进去。时间分分秒秒的过得特别快,再耽搁就收盘了!
有人说交易所可以自动把已报委托作为废单处理,可以把所有全天委托一股脑全插入。但从没人这样干过,鬼知道交易所会不会把那些委托重新成交一次!
空气都凝结了,但时间分分秒秒的流逝,再耽搁就收盘了!政治决断终于做出:干。
Foxpro插入数千条委托记录后,报盘机的委托和反馈信息瀑布一样的在屏幕上流动,持续了10几秒。之后赶紧查询成交回报!谢天谢地,没有重复成交!后来的IT总经理说如果交易重复,他会撒腿跑掉,再不回来上班。在收盘前几分钟一切恢复正常。
偶尔断网的问题还是没有解决。
一天后,我沉下心来,镇定的蹲在交易服务器后边仔细观察电线们的连接情况。(这是我的一贯做法,很多很多问题都是一些线头插的不对造成的,可能不会有立即的致命影响,但关键时候这些隐患总是会出来)。我注意到主、备两台机器之间有一个直连的网线,很早我就问过这根线的用途,说是硬盘数据同步心跳线。这根网线两端的端口灯几乎不亮,有点不正常,硬盘数据同步应该数据量巨大;而连交换机的网口灯却始终保持快速闪烁(即使没有业务的时候)。我去看了硬盘同步软件的配置,和心跳线网口的设置,让我不敢相信的情况发生了:配置是完全错误的,就是说硬盘数据不是通过直连网线同步,而是通过交换机网络同步。我马上意识到时常断网的原因:硬盘海量数据的同步占据了绝大多数网络带宽,阻塞了其他业务数据的交换。
修改配置后,断网现象再没出现过。
这个故事告诉我们,向中医理论一样,一个症状可能是遥远的原因造成的。蝴蝶效应在证券公司的信息系统上得到了最佳验证。而且往往最终失误往往是低级而简单的。

故事2:
2000年5月,北京北三环西路营业部的装修和信息系统改造接近完成,全公司的IT系统建设大军几乎全部汇聚到此。宽敞明亮的机房,整齐的机架,崭新的机器,就是我们这2个月的成果。大家心情轻松极了。
某天下午2点,7、8个分都坐在机房内,平时严肃的领导说着有趣的故事逗得大家哈哈大笑。然后是几秒钟的冷场,鸦雀无声。突然,最戏剧性的场面出现了,现在想起来我都觉得太戏剧性了!信息系统向这些维稳高手们来了个下马威!
只听见“嘎噔”一声,围着我们的几十台电脑突然黑屏!再仔细一看,主机显示灯也都熄灭;再仔细一看,4台服务器的主机显示灯也黑灭!
怎么可能?最不可能发生的事情。不是有UPS吗?!
1秒钟后,又是“咯噔”一声,所有机器全部加电启动!机器自检,噪音巨大!
我们几个人都还坐着,1、2秒之后才意识到发生了什么,2、3秒都没说话,第4秒,领导终于说了句玩笑话打破了凝固的空气:检验我们应急手段的时候到了!
其实接下来的操作就很简单了,就是把早上开机的流程重新做一次。服务器启动需要时间,启动好后,各子系统电脑要启动,登录无数的用户名、口令,开报盘机之类的。
1分钟后,客户经理从门外探头进来,说:你们知道了吗?我们说:我们知道了,正在处理。他就把头缩回去了。3分钟后,营业部经理进来,什么话都没说,看着我们做。
10分钟后,所有系统恢复正常。
由于这次事故已经是2个月内第N次交易中断了,所以在一楼散户大厅和二楼之间设置了铁栅栏,上了锁。当天股民确实准备冲上来。幸亏有铁栅栏!
后来大家一直没有找到这次灵异事件的原因。我猜是隔壁装修队把那些重型设备们的电源插头插入了我们的UPS电源插座。启动设备的瞬间激发了UPS的断路保护,让UPS发出了错误的断电和恢复供电的动作。
结论:这个世界上什么事情都可能发生,信息系统出问题是大概率事件,而且往往扎堆的出问题。电源,往往会造成很多很多的系统故障。

故事3:
2000年10月,还是那个营业部。他们都走了,留下我,我觉得身上担子好重,鬼知道会不会再出什么乱子。
Jzm时代,flg经常搞干扰卫星的勾当。再加上当时太阳黑子确实活动厉害。所以天灾加人祸,用于交易通讯的卫星系统一再出问题。
那天下午1点半。正在想这一天会不会平安结束,卫星机红灯闪烁!(之前的写于6月2日,7月24日续写。)现在回想起来,当时的感受就是蒙了。不知道怎么处理。惭愧。这种遇到紧急情况手足无措的感受在我这一身中无数次的困扰我。知道后来必须承认,我是这方面的looser。(在这方面,我老婆是我的另一个极端,她极不理性,计划性很差,但遇到紧急情况她反应和处理能力一级棒。真是人世间什么人都有呀,就看你自己怎么去定位怎么去适应,找到一个自己舒服的生活位置不容易!)
营业部领导又来了。我们又跟卫星公司打了很多次电话,该采取的操作也都操作了。
就在这时,问题无厘头的来,又无厘头的去了。卫星机的绿灯又亮了起来。一切又恢复到常态中。
按说这是一次十分小的问题,但因为是我第一次独立承担责任,所以压力特别大。我的感受是:当你可以超脱的看别人承担责任和压力的时候,你根本可能说一些站着说话不腰疼的评论,但责任不是那么好承担的。做领导就要承担责任,当你如果对责任看得过重,可能小小的压力就会把你压垮。所以切忌不要抱怨负责人做的这不好那不好,珍惜你现在拥有的最重要。这话是对你说的,更是对我自己说的!

故事4:
还是2000年左右,是以为女同事的亲身经历:当时长沙某银行信托部的证券营业部的IT系统那一段时间总出问题。他们打算换一台PCServer,头天晚上换好,启动正常。但第二天上午出现死机现象。IT部在一个小房间里,关紧了门。外边股民砸门。
她的感受是:我在里边恐惧极了,门好像马上就会被踢开,然后他们会冲进来把我们都暴打一顿。
HP公司来人换了新机器还是有问题,晚上重装系统用新机器,才让莫名的故障没有才出发。

总之,类似1997~2000年在长沙营业部里发生的电脑故障有很多,很多次出现冲入电脑机房的现象,甚至有同事被打。
在去证券公司之前,就听说营业部IT经理年终奖可以有2万(当时听,是天文数字),但电脑系统出现一次故障,可能就会被扣掉几千元。或者股民的损失由电脑部经理私人承担。
到北京后,公司另一个营业部由于电脑故障,股民跟公司要赔偿,公司让电脑部经理私人承担,这是我亲眼所见。十分十分不合理,但是十分十分无奈的现实。

故事5:
2002年,上海,总部机房。
当时唯一大集中的系统就是B股交易。全公司所有营业部的B股委托都要通过刚刚建立的公司广域网汇总到总部,再集中通过深圳和上海的两个营业部分别象两个交易所报盘。
就是这个重要得不能再重要的汇总报盘机的电源插座,被公司一位资深员工拔了。
当时他正在机房打扫卫生,拖地。(保持机房干净整洁是IT员工的重要工作。)他事后说,可能是看到那个插座里边很脏,那个电源插头很碍事,不知道脑子里在想什么,鬼使神差的去把它拔了。拔了之后,机器咯噔一声断电了,他才意识到闯了大祸。(估计当时他的念头中有一条:辞职不干了。)
我亲眼目睹,当领导冲到机房外说整个公司B股交易中断了的时候,他埋头在B股报盘机前紧张的处理着什么。
(悄悄话:由于我正处于站着说话不腰疼的阶段,所以我内心里其实很兴奋的看到公司出现这样的大事故。)
现不论问题原因,最重要的是恢复报盘。由于几乎所有系统的应急处理计划都是这位肇事同事写的,所以他来亲自动手让机器尽快恢复运转是最正常不过了。我们都在边上看着。
有时候,平时看上去机器启动很快,或者应用程序启动和密码输入过程很快,但真到了关键时候,这个过程绝对比我们想象的要慢。
就像很多理论上2、3分钟就能做完的系统切换,可能10、20分钟才能完成。这是我的经验,很多中国证券公司出问题后的系统切换恢复正常的时间也验证了我的经验。
事后,资深IT管理人员说出了他无厘头肇事缘由,大家都觉得不可思议。但IT事故有哪件是有可思议的呢。
最后,处理不了了之,毕竟资深员工是IT部红人。(这里要引发我另一个感慨:同一件事,一个会做人的人获得的结果要比不会做人的人获得的结果要好得多。先做人、后做事,是职场的最基本的法则之一。)

故事6:
2003年,上海,公司总部办公网络。
当日,冲击波病毒大爆发。乖乖!网络蠕虫真他妈厉害。
上午9点多开始出现上网中断,很快就发现是当时在全球肆虐的针对微软漏洞的网络漏洞扫描直接攻击型新型病毒“冲击波病毒”在作怪。但到中午,公司一半以上电脑都被检测出被感染,并不停扫描网络攻击其他电脑,或者霸占Internet出口遍历攻击Internet上所有IP网段。
从10点开始,所有IT部员工被紧急动员起来,给公司总部200台电脑打冲击波病毒利用的那个Windows漏洞的补丁。到晚上10点,才基本完成。
当时我想:这样看来,所有Windows系统启不是都要及时打补丁才能根绝网络病毒吗?(当时打补丁可根本没有形成习惯和必须。)后来电视上报道,黑客产业,说某个后门程序可以有数千万台肉鸡,我就觉得很正常。中国的家庭用户真的没有保护自己电脑的意识。
直到现在还能到出现死机现象的邻居家里电脑上发现几十上百个病毒和恶意代码。
无语…

故事7:
2004年,上海,办公网络
很多天,上网有时候特别慢,大家(包括公司领导)怨声载道。通过监控交换机流量,再通过跳线架对应的网口,发现公司前台小妹妹装了BT下载软件,下载电影。
很搞笑、很无奈、很愤怒。小妹妹差点被开除。外资企业就是严格!

故事8:
2008年,上海,公司广域网。
奥运维稳最紧张的时候,08年股灾中难得的反弹行情,成交量和成交笔数大增。
上午11点0几分,公司的IT员工QQ群上有人喊:委托之后没有成交回报。开始当成单点故障,但很快变成了若干营业部的普遍现象。联系到几天来经常有营业部反应营业部到总部的交易线路拥堵,公司网络副总裁们开始紧张起来,肯定网络上有问题。
某营业部有个大户做权证要求很苛刻,曾经因为网络慢投诉到公司领导层那里,加上奥运维稳政治压力大,中午公司领导就打电话过来询问怎么回事。
到12点半,好像问题找到了,通过网络流量监控,发现有一台电脑在巨量的象网络发送数据包,这个“巨量”大到阻塞网络的程度。拔掉它的网线,立马正常。
这台电脑是公司子公司基金公司放在总部机房的机器,属于三不管地带,没人给它打补丁杀毒,所以被感染上了遍历扫描型Windows漏洞网络蠕虫病毒。
部门扯皮、官僚机构作风,往往是IT系统的故障根源!

故事9:
2008年,上海,登记公司。
当时做帐户清理,对3年不交易的死户要上报登记公司做注销处理。
登记公司对怎样的帐户属于休眠户有具体描述,但具体到SQL代码这个层面,很多业务定义就不够清晰了。
例如:资金少于1元,这个“资金”包含外币吗?“交易”包含资金的划转吗?等等。
于是,业务部门认为登记公司的业务定义已经够清晰了,让IT部门直接拿结果就行;但IT部门认为查询条件还远远不够严谨,可能细小条件的差异得到的结果就不同,那么怎么拿到一个尽量严谨的符合“想当然”的条件的结果。
业务部门往往把对计算机系统搞不懂作为不参与很多很累很复杂很需要承担责任的工作的借口,而IT部门又往往把怎样才能推卸自己不应该承担的责任和怎样才能拒绝业务部门的无理要求作为自己的主要工作。
在这种本来就可能出现问题的前提下,报到登记公司去的数万户休眠户的数据还是出现了差错。(时间有2年,具体原因都不记得了,人记忆力很差,所以经常写些东西备忘是很好的人生习惯)。在SQL语句的某一个Join表的某个Where语句少了一个重要条件,导致搜索结果大大多于应该出来的结果。前天晚上已经把数据报给了登记公司,第二天就有客户投诉,我的帐户怎么不能交易了!
出了大乌龙,马上联系登记公司,恢复了所有这些客户的帐户。
接下的工作主要是如何界定事故责任上。无数的会议、争吵、扯皮、推卸责任后,几乎所有的人都没有被影响到每年一次的加薪。(职场上,出问题是肯定的,决定一个人价值的主要依据不是他有没有惹事,而是他惹事后怎么处理的。)
又想到了,去年国泰君安连续出现的主机故障,维稳的关键时候,全国所有营业部均数十分钟无法交易,而且2周内出现重复。这种故障是10多年来罕见的。最后好像IBM说主机出现这种问题在全球都罕见。我可以肯定的说,IBM都不确信是自己出了问题,或者问题出在哪里。
曾经有知名证券IT老总说:证券交易系统每隔几年出现大故障是必然的,无论如何是避免不了的。IT系统是个极其复杂的电磁集合,是混沌理论的绝佳实践区。南美的蝴蝶拍拍翅膀引发中国飓风。这个过程是怎么发生的,没人搞得清,也没有必要搞清。

最后,我的意见是:
按部就班的去做好应该做好的工作。不要绞尽脑汁的避免故障的发生。必须意识到故障迟早回来,你应该把更大的功夫放在如何做善后工作上,如何给领导打好预防针,或者努力做到坏事变好事。要想在职场混好,必须先做人、后做事。做好了人,你如何做事都无关紧要了。

你能体会我写这篇文章的意图了吗?

Advertisements

猜你喜欢

转载自blog.csdn.net/wqfhenanxc/article/details/80003669
今日推荐