智能时代【1】

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/itsxwz/article/details/82628906

书名:《智能时代》
作者:【美】吴军
出版社:中信出版集团
Target :Open My eyes

1.数据-人类建造文明的基石

现象、数据、信息和知识

  • 如果把资本和机械动能比作大航海时代的推动力,那么数据将成为下一次技术革命和社会变革的核心动力。
  • 文字、图片、视频等等都是数据。它是客观存在的,其范畴随文明进程不断变化和扩大。今天,以语言和文字形式存在的内容是全世界各种信息处理中最重要的数据,也是全世界通信领域和信息科技产业的核心数据。
  • 信件、电话、电子邮件内容、电视和广播节目、网页、社交app用户产生的内容、医学影像资料、工业设计图纸、人类的活动等等,都可以被划分为数据。数据是文明的基石,人类对它的认识也反映了文明的程度。
  • 信息是关于世界、人和事的描述,它比数据来的抽象。信息既可以是人类创造的,也可以是天然存在的客观事实。数据是人造物,它主要用于承载信息,不是所有的数据都承载有意义的信息,而且数据可以被伪造。
  • 如何处理数据,过滤没有用的噪声和删除有害的数据,从而获取数据背后的信息,就成为技术甚至一种艺术。
  • 数据中隐藏的信息和知识是客观存在的,但只有具有相关领域专业知识的人才能将它们挖掘出来。
  • 对数据和信息处理后,就可以获得知识。知识比信息更高一个层级,也更抽象。如:开普勒三定律,牛顿三定律。

数据的作用:文明的基石

  • 早期人类得到数据的一个重要来源是对现象的观察。人与动物的重要区别:后者虽具有观察能力,却无总结数据的能力,而人类具有这个能力。
  • 埃及法老修建金字塔的几千年前,闪米特人和当地土著就在尼罗河畔辛勤耕耘了。除了气候温暖,最重要的原因是:尼罗河洪水退去后留下大片肥沃土地供他们耕耘收获。为了准确预测洪水到来、退去时间,洪水大小,当时的埃及人根据天狼星和太阳同时出现的位置判断一年中农耕的时间和节气。古埃及人观察到一年的时间不是正好365天,而是多了一点,但古埃及历法没有闰年,于是他们用了一个非常长的“季度”,365*4+1=1461天。
  • 人类另一个古老的文明中心是美索不达米亚平原,那里的苏美尔人对天文学有了进一步的发展,他们根据观察发现月亮每隔28~29天就完成从新月到满月再到新月的周期,他们同时观察到每年有四季之分,每过12~13个月亮的周期,太阳就回到原来的位置,这样他们发现了太阴历。
  • 古希腊时期,地中海沿岸的学者们学习继承了美索不达米亚文明的成果。最终天文学家托勒密利用数据建立起描述天体运动的模型。托勒密用40~60个小圆套大圆的方法,精确的计算出了所有行星运动的轨迹。经过1500年后,托勒密对太阳运动的积累误差多出了10天。1582年,教皇格里高利十三世在日历上取消掉10天,将每一个世纪最后一年的闰年改为平年,每400年再插回一个闰年,这就是我们今天用的日历,这个日历几乎没有误差。
  • 波兰天文学家哥白尼从另一个角度看问题,提出了日心说的模型,它的好处是只需要8~10个圆,就能计算出一个行星的运动轨迹。但是哥白尼的假设没有得到比托勒密更好的结果,因为缺少数据。开普勒发现了行星围绕太阳运转的轨道实际上是椭圆形的,只需要一个椭圆就能将星体运动规律描述清楚,开普勒为此提出了三个定律。牛顿在开普勒之后提出了万有引力定律,彻底解释了为什么天体运动的轨迹是椭圆形的,并修正了开普勒的椭圆模型,椭圆的焦点从太阳移到了太阳的重心。
  • 中国的远古传说中,伏羲发明了八卦,并且可以通过它推演未来的吉凶。
  • 过去数据的作用常被忽略,主要两个原因:1.过去数据量不足,积累大量数据需要时间;2.数据和所想获得的信息之间的联系通常是间接的,需要通过不同数据之间的相关性才能发挥出来。
  • 获取数据 - 分析数据 - 建立模型 - 预测未知

相关性:使用数据的钥匙

  • 日本人通过1964年中国的《人民画报》上刊登的铁人王进喜的照片,分析出了关于大庆油田的许多细节信息。
  • 帕特尔在Google内部看到用户在不同时间点对某个电视节目的搜索量,可以了解到不同电视节目在不同地区的收视率。
  • 通过各地区用户在Google上搜索和流感有关的关键词的趋势变化,预测流感流行到什么地方了。

统计学:点石成金的魔棒

  • 最初研究概率论的并非数学家,而是一群赌徒和投机者。
  • 统计学中数据采集的两个要点 -> 量和质。
  • 越想要得到准确的统计结果,需要的统计数据量就越大。除了数据量必须充分外,还要求采集的数据具有代表性。

数学模型:数据驱动方法的基础

  • 切比雪夫不等式,从理论上证明当观察到的数据量足够多,随机性和噪声的影响可以忽略不计。用抽样数据估计一个概率分布是一类非常简单的问题,大多数复杂的应用需要通过数据建立一个数学模型,以便在实际应用中使用。要建立模型得解决两个问题:1.采用什么样的模型;2.模型的参数是多少。找到模型的参数,即机器学习。
  • 只要数据量足够,可以用若干简单模型取代一个复杂模型,这种方法被称为数据驱动方法。数据量不足时,该方法可能存在一定偏差,但在误差允许的范围内,单从结果看和精确的模型是等效的。
  • 数据驱动方法的最大优势在于,它可以最大程度上得益于计算机技术的进步。它是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。
  • Google的AlphaGo计算机战胜天才围棋选手李世石。

猜你喜欢

转载自blog.csdn.net/itsxwz/article/details/82628906