一次项目经历[1]

这个项目现在已经死掉了,这些经历还是有些价值,这里记录下来,供大家批评。

背景

首先回顾一下这个项目的背景。2009年,国家连续出台了多个关于网络扫黄打非的政策和文件,也对一些管理不力的电信机房进行曝光,限时整治。

2009年底的曝光中,当时我们的客户单位某地电信,以一名之差没有被曝光(这个情况是当时他们自己讲的,具体内情不是很了解)。所以,2010年初,当时他们的主管领导找到我们公司,希望我们能给开发一套不良信息监测的系统。

在老总和当时的技术总监的主导下,2010年3月份,这个项目就这么立项了。
当时的我还是进入公司后不久,(我是2009年10月份进入的公司),职位是图像算法工程师,这个项目之前主要在做人脸识别的一些算法研究,以及辅助语义网络项目完成一套图像算法语义词典。

项目初始阶段

起始时项目的分工情况我已不太了解了(我当时刚入公司,并且还是远程做,主要负责图像方面的工作,公司的很多讨论我都没有参与),大体上是分成网络、语义和图像三个部分来做这个事情,网络部负责抓包组包,将还原出的的网页或图片信息分别交给文字检测(语义)和图像检测两部分进行处理,处理后将结果返回给网络部,网络部通过网页的形式展现结果,并提供相应的操作接口。

我很自然的被分配到图像组进行基于内容的不良图片检测的研究。开始时图像组是由老总亲自带,具体研发过程我就不细说了,反正到了4月份的时候,推出了一个window版本的demo。检测结果当时还是比较粗糙的,大约过检(false positive)20%,不良检测率在60%~70%吧,因为当时的训练和测试集都整理的比较少,也没有经过系统的测试。

4月份有一次开会,老总说是要选择一名项目经理负责图像组的研发,不过选择的结果不是任命,竟然是大家一起推选。他先提名了一名资格最老的女员工M,但M是又推托,她又推荐了远程工作的X,X又推到我……当时很是滑稽,我当时也搞不懂为什么是这样(后来虽然有些懂了,但这里还是不要说了吧),后来我竟然跟X是平票,两个都是远程工作的……再后来,远在加拿大的副总AC又投了我一票,并且说要我多负点责任云云。对于责任我确是不容推托的,年终总结里我也曾表过要以主人翁的姿态来工作,所以,当时虽然对远程进行团队管理研发型团队没有什么信心,对员工这种“推”选时的心态很是不解,还是一口应了下来。后来自己担心的这两点都有让自己尝到了苦头。

首先,这是一个研发型的团队,主要是围绕新算法新模型打转,我是一点管理经验都没有。我在以前的公司做企业信息化,倒是带过一个四五个人的团队,但是纯粹的软件开发的话,工作量比较容易量化,进度也容易控制。而研发型的团队,从提出方案思路,到最终形成可以交付使用的系统,中间的不确定性因素太多。

对于一个新的算法的确立,一般的过程是:每遇到一个问题,(1)大家分头调研,查看最新论文,然后汇总,确定采用哪几个方法,(2)然后再实现,进行实验对比。(3)确定最合适的算法,然后进行封装,提交使用。

来看看这中间的不确定性和管理的难度主要集中在哪里:

(1) 我沿用以前的方式来做调查,调查的时候,大家一人分一个方向去调研,看相关论文。但这样的弊病是太过分散,大家各自忙各自的,讨论的时候彼此的细节都不太了解。返回来的结果也经常是:没发现什么好的思路,我调查的那个方法好像不怎么好……往往听到这里我脑子里就炸了

(2) 实现的时候,过程拖的太长,或者因为实现的过程中掺进了人为错误:我的算法还有点问题,我的结果不太好。还有一个比较大的问题是试验数据的整理。很多在标准测试库上跑的很好的算法,到实际图片上会大大降低精度,很多算法都经不起验证。所以,要想测的好,就得针对自己的实际图片进行训练或测试,而样本整理要不失去普遍性就得注意数据来源以及人工筛选的尺度等等。这个在管理上也是比较难控制的。

(3) 封装是风险最小的一个环节,但是往往也会有很多意外出现,比如,在matlab中测试好好的算法,由于对细节的理解不同,用c+改写出来,也会遇到这样那样的问题。

对于人员方向过于分散的问题,我后来采用的办法是尽量集中几个比较可靠的算法,让两个以上的人去负责一个方向,这样一是可以让成员在研究的时候可以相互讨论,相互促进,实验的时候可以彼此验证,二是缩小了范围后,大家可以有精力去了解对方算法的一些情况看,在小组讨论的时候可以提出有用的意见。研究后要整理相关的文档进行总结。
对于样本采集当时是让网络部的人员为我们写爬虫爬了几个网站,然后让实习生什么的一起来分类。至于分类尺度,分类之前总体给他们定一个标准,分类过程中就没有别的方法进行控制了。

这都是后来的一些做法了,一开始可以说是一团糟。我本身远程做,通过skype进行沟通讨论,许多时候沟通不到位。所以搞得自己很是被动。任务安排下去以后,进度一拖再拖,老员工对我这样的新员工也不满抱怨……组员又很少有做文档的习惯,经常我让他们做个实验,返回给我一个最后的数据,连测过多少图片都不知道,问起来还说图片已经删掉……

有点长,先写这些,稍后再续,欢迎批评,留下您的宝贵意见。

推荐阅读:
一次项目经历[2] http://haibuo1981.iteye.com/blog/1408235
一次项目经历[3] http://haibuo1981.iteye.com/blog/1409142

猜你喜欢

转载自haibuo1981.iteye.com/blog/1407862