一个“码农”眼中的大数据

大数据,自从这个“高大上”的概念出现,便像病毒一样蔓延,以至于对于我们这种搞IT的人员来说,不了解这个概念似乎都不好意思承认自己是干这一行的,估计各大软件公司也都已经或者准备涉足这个领域。本人所在的公司也一样,近期一直强行推广相关的技术。不过,不清楚我们的那些大BOSS们到底是装懂呢,还是装懂呢,还是装懂呢,总感觉这种推广的方式有些偏离了大数据的实际含义。

本人自认为一直从事着数据处理方面的工作,长期以来,工作的流程一直是:各运营商会提供各自的接口(比如FTP),从接口处取得各种类型的文件(例如 csv格式、xml格式,甚至包括二进制文件),解析文件并将所需要的信息取出后load到数据库中;入库后,有些数据会针对时间粒度或者空间粒度进行汇总处理;然后,对于本人来说就木有然后了,会有另外一批人员进行上层界面的开发,根据数据库中的原始数据或者汇总后的数据,做出一个很炫的界面以显示这些信息,并提供给客户使用。

之所以要推广大数据相关的技术,是因为需要处理的数据量越来越大,而且以后还会有继续增大的趋势;而由于数据采集的实时性,需要对处理的效率有一定的要求(一般数据是每小时都会生成的,如果一次处理在一小时只能还无法完成,那结果可想而知)。基于这些原因,引进了大数据相关的诸如Hadoop的技术。然而,这就是唯一的区别,仅仅是将数据处理部分从原先的程序改成通过那种“高科技”的方式实现,仅有的区别就是直接得到汇总后的结果并将其导入到数据库中。处理后,相关的数据将彻底完成历史使命,并于一段时间以后“灰飞烟灭”。

这就是传说中的大数据乎?深表怀疑,也许充其量就是数据量比较大的数据罢了。

于是乎,在工作之余,研究了一下传说中的“大数据”,发现它确实不是这个样子的,它是一种全新的思维模式,甚至跟数据量的大小本身没有半毛钱关系。与此同时,也深深的感受到,长时间在这么一个安逸的工作环境下,自己确实已经有些out了。也许,真到了应该充充电、全面提升自己的时候了。

不过,出于多年以来的习惯,总是有反权威的倾向,喜欢按照自己的方式理解,而不是对所有理论完全照搬;而且,总喜欢将自己的理解用一种完全另类的方式表达出来,于是,才有了下面的文字。在此声明,本作品纯属自娱自乐,如果其中的某些部分对各位有那么一丁点儿帮助,能够成为各位的非物质文化遗产,那也算功德一件;如果感觉没有任何实际的价值,那也不要浪费各位的宝贵时间,直接无视即可。当然,由于是初学者,理解上势必会有一些偏差或者不足,所以也欢迎各位能够以“就事论事”的方式进行学术上的探讨。

引言

诈骗短信、广告推销短信,都是让人很闹心的;如果再被这些短信骗了一下,那估计就更闹心了。然而,如果留意一下这些短信,会发现这类短信的精确性越来越强:比如刚买完房子的,就收到了装修类的广告短信;刚有了小孩,就收到了婴儿产品的广告短信;刚到银行准备准备汇款,就收到了陌生的汇款账号……确实,随着时代的进步,骗子这个行业也在与时俱进。

最开始的时候,这类骗子们还属于完全没有技术含量,就是单纯的随机发送,或者对某个号码段进行全覆盖发送。然而这种方式确实很不实惠,就算短信一毛钱一条,这样疯狂的发送也是很耗成本的;而且这种方式会出现将大量的信息发给空号或者废号,即使是发给正在使用的号码,如果接收方都是那些不太可能上钩或者对相应内容完全不感兴趣的,那也只能“点儿背不能怨社会”了。

接下来,骗子们就通过买一些相关信息,从而更有针对性的发送短信。但随着社会的进步,人们也重视了个人信息的安全性,更多的相关人员也提高的职业操守,导致了相关信息的购买成本提高以至于可能达到不划算的程度,甚至有可能出多少钱都买不到相关信息。

然而,一个好东西的出现解决了骗子们的困境,而且这个东西的构造并不复杂,只需要一部手机、一个短信发射器、一台电脑、一根天线、一个电瓶,以及一个电源转化器,将这六个并不昂贵的机器其组装到一起,就可以使用了。这个东西又一个学名,叫做“伪基站”。

它的工作原理也很简单,就是在一定范围内,屏蔽掉所有运营商的信号,使其只能接受到这个伪基站的信号,同时搜索在这个范围内的所有手机号,通过这个伪基站的信号将短信发送到这些手机中。这样就可以用很低的成本,定点的发送诈骗或者广告推销短信。比如,在售楼处附近安装一个伪基站,用来发送装修类的广告短信,就可以基本达到他们想要的效果。只要拥有这么一个“伪基站”,就可能获得意想不到的收益,绝对的商机无限,而且该工具价格公道、童叟无欺,是居家旅行必备“神器”……

不对呀,作为一个社会主义好公民,貌似是不应该干这种违法的事情的。确实,对于这种违法行为,确实需要严厉打击。但关键是,怎么打击呢?

这类违法行为的最大特点是没有特点,因为可以把这个“伪基站”放在任意一个角落:出租屋、宾馆客房,甚至可以放在行进中的车里(只要车速低于一个值,这种“伪基站”依然可以正常工作)。它不像抓扒手那样,只要盯着了车站、商场这类地点就可以了,而是需要关注几乎全部的角落。

如果加大警力,也许可以实现上面的目标(同时顺便解决一些人的就业问题),但这里还有一个更让人头疼的问题。对于扒手,不管多么有技术含量的,它都是需要在公共场所进行的,所以那些有经验的反扒**们可以直接看到扒手们工作的全过程,这样就可以将其抓个现行。然而这种利用“伪基站”的人们,是绝对不可能脑残到把这个东西安装在公共场所的,必然是安装在封闭的空间中:比如门窗都上锁并且拉上窗帘的房间中,或者车窗为黑色以至于无法从外面看到里面情形的车里。在正常情况下,除非得到准确情报,否则的话,**是没有权利进入室内或者车上进行搜查的。这种对公民自由权、隐私权的保护,反而给骗子们留下了生存的空间。

当然,还有“除非得到准确情报”这个例外,接下来的问题就是,这个情报从何而来。至少,从骗子那里直接获取的可能性几乎没有,应该不会有哪个骗子会脑残到自己发一个类似“在哪儿安装的伪基站真好用,赚了多少前”这样的微博。

既然这种“伪基站”是因为技术的进步而生产出来的,那么同样通过技术方式是否就解决这种问题呢?貌似还有些希望。由于在使用伪基站的时候,在相应范围内的手机会出现短暂断网的现象,如果某个区域内的大部分手机都出现这种断网的现象,并且紧接着就会收到相关的短信息,就可以认为那附近可能有人安装了伪基站。原理很简单,而且似乎也有实现的可能(毕竟这种断网导致的客户满意度的下降也是各运营商所不愿意看到的,所以运营商和警方之间是有合作意愿的),但仔细想来,这还远远不够。

首先,由于它需要覆盖一个很大的范围,会涉及到大量的数据。即便是单单一个城市,统计在整个区域内的所有手机在所有时间点内的信息,那都不是一件容易的事情。就算是仅仅保存,也需要很大的空间;如果再加上分析处理呢,难易想象。

其次,骗子们可不会老老实实的等着**来抓,也许我们辛辛苦苦分析出来了他们位置的时候,他们已经完成了当天的工作并将相应工具藏好了,或者换到了另外一个地方(最典型的情形就是将“伪基站”安装在车里,等确定位置再来抓捕的时候,可能已经不知道那辆车开到哪里去了,这里还没包括可能由于遇到上下班高峰期导致在路上所消耗的时间)。

这样看来,此题似乎要无解了。

确实,在传统的技术手段上,它是无解的。但我们现在有了一个新的思路,通过它,我们就能够解决这个问题。它的名字叫做——“大数据”。

推荐阅读文章

大数据技术盘点

程序员大数据培训分享Shell中数组讲解

大数据教程:SparkShell和IDEA中编写Spark程序

猜你喜欢

转载自blog.csdn.net/chengxvsyu/article/details/91630824