大数据时代的思考

信息爆炸这个早就听说过，但是为什么现在才出现大数据一说？人工智能更是60年代的概念，现在为什么会火？语音识别，图像识别为什么变得越来越重要？并行处理器，云计算，数据挖掘，机器学习为什么广泛需求高级人才？这两天看了吴军的《智能时代》，这些问题有了比较清楚的了解。

按照这位前辈的理解，我们应该正在处于一次技术革命的拐点。以上提到的这些概念都是解决了人类之前无法解决的一些事，这种方法就是利用大数据处理技术。文中举了很多例子：智能驾驶，Alphago，深蓝，亚马逊精准推销，google的广告展示等等，这些成功的例子作者都将其归纳为应用了大数据思维。那么什么是大数据思维呢？与大数据思维对应的是机械思维，并且我们很多人依然停留在机械思维模式中。在之前的时代，利用机械思维能够解决一些确定的问题，比如历法，医药研制等等问题，但是很多问题，这种思维无法解决。比如，机器智能问题。机械思维最为经典的模式就是，从一些数据中得出某一模型（很多时候是公式），然后利用这一模型能够预测并得到验证。这种方法需要大量经验积累，并且在一定运气的条件下发现这个规律，进而指导人们认识到这种规律和利用这个规律。这就相当于先发现这个事物的本质，然后再大量应用。现在的问题是，很多时候我们不知道某种规律，但是我们能够得到大量数据来观察。如果按照原来的思维方式，也许会在某一个特殊的人身上发生一件比较幸运的事，使得他能够揭示这个规律。然而在高速发展的今天，这种方式显得不靠谱。那么就需要一种全新的方式来处理这些问题，那么利用观察的大量结果来解决问题就变得十分有必要了。利用大数据解决问题的方式就是大数据思维。其实按照我的理解，这并不是什么新思维啊，只是那些工作者们在得到大量数据后，对数据进行建模处理，寻找原因，最后发现规律，进而指导行为，最后从中受益。这些与之前的机械思维没什么不一样啊，只是他们的数据量更加复杂，模型更加多维度化而已。但是书中很好的指导了接下来的关键技术突破我是十分认同的。

一、数据收集

书中介绍了模型的准确与否主要取决于数据是否完备，及时，准确。现在的数据量非常大，如何采集到有效的数据将会是决定未来的关键。数据必须准确，也就是必须有效的。比如，传统的调查问卷方式获取数据不仅不能完全涵盖各个层面，并且这种数据也并不能反应真实情况。书中举了一个很好的例子就是很多人在填写自己的喜好时，常常会填写当下比较潮流或者高大上的，常常并不能真实的反应意图。而当一个人处于完全自由放松的状态，不经意间流出的信息却是非常真实有效。如果可以去收集数据常常会得不到真实的，不全面的信息。这种信息会导致错误的模型，进而指导错误的发展战略和行为。所以很多大公司采用的是曲线提取数据，根据相关性来获取信息。

二、数据存储和数据表示

尽管现在的数据存储设备随着摩尔定律而价格大跌，但是信息的数量增长速度却远远高于这个下降速度。在存储容量有限的情况下就会产生矛盾。大量的数据必须删去冗余或者改变存储的方式来满足存储有限的限制，但是数据的压缩必然会引起数据的丢失错乱影响数据的完备性。利用云技术可以减少重复信息的存储，如何方便快捷的管理数据也变得十分重要。另外数据产生的目的不同，表示方式也是不同的。那么如何从不同格式的数据找出数据的关联性获得有意义的数据变得十分棘手。

三、并行计算和实时处理

并行计算并不容易，一个任务是很难切分成多个并行处理并且时间相等的小任务。实时化也不容易，很多处理在不同场景下耗时是不同的。

四、数据挖掘

如何从一堆数据中找到有用的信息，并从中总结出规律是十分困难的。

五、数据安全

以下是个人之前的一些理解。这里简单思考一下。

我们知道自然界存在很多信号，如光信号，声音，文字等等。随着传感器技术的发展，这些我们平常接触的信号都将被处理成信号，进而采集到计算机进行处理。所有进入计算机的信号都转化成数字呈现在我们眼前。无穷无尽的信号将会产生海量的数据，这些数据如何处理将决定着我们如何能更好地借助计算机认识世界，发现规律进而实现数字化世界。数字化采集技术的发展必然引起数字处理技术的进步，海量数据需要非常智能的算法和架构来处理。

首先，数据的采集更加多样化。手机，摄像机，录音机，压力计，温度计等等数字化设备都能将自然界中的信号进行采集转化为特定的数字，这些采集到的多样化数据最终很可能随着互联网联系在一起。面对不同设备采集到的不同信号得到的数据进行统一处理将十分考验算法和架构。首先，必须要对这些数据进行分类，这就是数字处理。基于一定算法和架构的系统要尽可能的识别出不同的类别，并按照不同的类别对数据进行不同的处理。这是当前主要的处理数据的方法。对于确定的环境来说，已知几种类型，各种类型该怎么处理也是知道的，这就非常方便处理。问题是很多时候，我只关心海量信息中的一小部分，那么对所有数据进行分类，显得有点浪费。于是如何快速找到感兴趣的区域就是重点了，这就是搜索算法了。搜索算法的好坏评价就是快，准、稳。如何辨别感兴趣的区域和不感兴趣的区域呢？这就需要我们对这些信息进行分类。人类通过逻辑加推理能够快速找到目标，并分辨出信息的区别。比如你很容易分辨出苹果和梨的图片。但是电脑不能，电脑面对两张图片它不知道这张图片所代表的含义。如何让电脑识别呢？这个方法就是通过实验模型对已知确定的样本库对电脑进行训练，通过苹果和梨的两个库，然电脑能够对这两类物品有一定的识别能力。电脑通过训练记住了苹果和梨的照片的一些特征，使得电脑在接下来面对照片时就能够比较容易区分了。虽然愿望是好的，但是特征值的寻找比较困难。并且准确率也并不十分令人满意，这些都困扰着智能化的进程。深度学习的算法使得识别准确率得到了较大的提升，所以现在在图像识别和语音识别研究变得十分火热。但是特征值的提取依然很艰难，比如刘德华和曾志伟的声音很有特点，但是这个特点到底是什么？人能感觉出来，电脑却并不容易找出来。这些规律都隐藏在神秘的数据背后，总有一天人们会找出来并运用。虽然在语音和图像的识别并不是十分完美，但是现在商业化运行比较成功的是指纹识别和人脸识别。这些已经被大量用于安全领域，进行身份识别。未来如果语音识别的准确率如果能够提高，智能化时代将变得越来越近。

现在我从事的行业只是对数据类别的分类，数据类型清晰明了，数据处理方法已知。虽然数据量也很大，但是智能的成分并不存在。为什么会这样呢？我们主要是对状态进行处理，这里不涉及很深的内容含义。继电器就俩状态，开和关意义明确。即使组合只要有协议在，计算机也能够理解。语言处理却是千差万别，即使相同的两个字在不同的环境不含义也是不同的。像我们把所有的既定含义定死来让计算机理解是不可能的。我们的解析只是图形展示，图形每个点都有确切含义，不用进行分辨。所以我们只需要将图形实时显示即可。如果非要勉强和大数据沾点边，那些数以千计的传感器的集成处理应该算是有一点点吧。

大数据时代的思考

猜你喜欢