B05 - 001, Big Data era Ⅰ

0, this chapter outlines the learning catalog - the era of big data Ⅰ

Beginner consuming: 4h

Note: CSDN end of the phone does not support chapter jumps within the chain, but the chain is available, also requested a better experience on the PC side.

First, the definition of data analysis
  1.1 What is the data?
  1.2 What is a data analysis?
  1.3 The purpose of data analysis.
  Application 1.4 data analysis.
  1.5 data analysis division.

Second, the role of data analysis
    2.1 Status analysis (offline analysis).
    2.2 Analysis (real-time analysis).
    2.3 predictive analysis.

Third, the basic steps of data analysis
  3.1 Objective and clear thinking.
  3.2 Data Collection.
  3.3 Data Processing.
  3.4 Data Analysis.
  3.5 data show.
  3.6 report writing.

Fourth, data analysis industry outlook
    4.1 booming trend.
    4.2 Data Analyst occupational requirement.

Fifth, the development of scientific and technological challenges
  5.1 distributed systems.
  5.2 massive data processing.

Six, the era of big data
    overview 6.1.
    6.2 Big Data analysis.

Seven big data analysis system
  7.1 concepts, classification.
  7.2 website traffic log data analysis system.


This chapter related to the expansion of knowledge:
  B05 - 020, Big Data era Ⅱ
  B05 - 021, data analysis methodology


Beverage giant comfort zone Akzo  ||  ♂ ♀ tired feel no love





A, defines the data analysis

  1.1 - What is the data?

  • Data (data): is a symbol objective things, is used to represent the objective things unprocessed raw materials, such as graphic symbols, numbers, letters and the like. Or that the data is by physical inspection to get the facts and concepts about real-world places, events, descriptions of other objects or concepts.
  • What data?
    Data from the recording and measurement of objective events, measurement tools require interventional techniques.
  • Data analysis is inseparable from the data, the measurement and recording led to the creation of data together.

  • Data record: refers to a complete set of information corresponding to a row in the data source information. For example, a customer mailing list of all the information about a customer of a data record.

  • The computer appears to bring digital measurement, which greatly improves the efficiency of the data, so people's focus has gradually moved to a huge data recorded, these data research, analysis, in order to obtain greater benefits.

Structured data, unstructured data:

...
the so-called structured popular explanation refers to the program facilitates data interpretation process.

Data Preprocessing essentially:

...
cleaned, conversion, extraction, etc., the unstructured data, chaotic data into a data format of structured unified structure.

  1.2 - What is a data analysis?

  • Data analysis is the data collected is analyzed using appropriate statistical analysis method, they will be aggregated and understand and digest, in order to maximize the development of functional data, play data.

  1.3 to object data analysis.

  • The purpose of data analysis is the data hidden behind a large number of seemingly chaotic and centralized information extracted, summed up the internal laws of the research object.

  Application 1.4 to data analysis.

  • Commercial areas, the data analysis can help companies to judgment and decision-making, in order to take the appropriate strategy and action. For example, corporate executives hope to market analysis and research, to grasp market trends in the current product, to specify a reasonable product development and sales plans, which must rely on data analysis to complete.
  • Life in the most famous example is the weather experts by meteorological data analysis, and produce weather forecasts, according to the forecast, we will make the appropriate strategy is to add an umbrella or sweater.

  1.5 Analysis data partitioning.

  • Data analysis can be divided into: Descriptive data analysis, exploratory data analysis, verification data analysis.
  • Descriptive data analysis part of the primary data analysis, the other two are advanced data analysis.
  • Exploratory analysis which focuses on the discovery of new features in the data, and verify the data analysis will focus on the verification of the authenticity of proof has been hypothesized. Our daily study and data analysis involved mainly descriptive data analysis.
What data analysis?

...
use the software to find out technical data in the hidden laws and values, and ultimately act on somewhere.



Hot pursuit of the times, self-achievement.

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


Second, the role of data analysis

  • We all know the direction is more important than the effort, targeted more effective than wide net, data analysis can help us do that.

In business, the purpose of data analysis is to hide behind centralized data and information extracted, summed up the internal laws of the research object, help managers effectively judgment and decision-making.
...
data analysis in everyday business analysis, there are three major roles.

  2.1 to situation analysis (offline analysis).

  • In short, to tell you the current situation. Embodied in:
  • First, to tell you the overall operations of the company at this stage, to measure the company's operations through completion status of each index to account for business operations is a good day or bad, how good degree, and to the extent where the bad .
  • Second, the business enterprises constitute tell you, so that you understand the development and changes of the business enterprise, to business operations have a better understanding.

Offline analysis: data analysis of historical data, which has been generated.

  2.2 ~ cause analysis (real-time analysis).

  • It is simply to tell you why a certain status quo occur.
  • After analysis of the status quo, our operating companies have a basic understanding of the situation, but do not know where the operations of the body Fortunately, where the poor, is what causes. Then we need to carry out cause analysis to determine the specific cause of further business changes.
  • For example, in February 2016 operating income declined 5%, which is what causes it? Is the business revenue decline, or decline in revenue caused by the individual business is business income declined in all regions, or falling revenues in some areas caused? This requires us to carry out the cause analysis, to further determine the specific cause of the decline in revenue, make adjustments and optimization of operational strategies.

Real-time analysis: analysis of current data, real-time data generated.

  2.3 to predictive analysis.

  • Is simply tell you what will happen in the future.
  • After understand the status of business operations, sometimes we need to make a prediction for the future development trend of enterprises to provide effective reference and decision-making basis for the development of business strategy and operational objectives, in order to ensure the sustainable and healthy development of enterprises.
  • Predictive analysis is generally accomplished through thematic analysis, usually in the formulation of corporate quarterly, annual and other plans, the frequency of its current situation and not to carry out high-cause analysis.

Machine learning (association, prediction, classification, clustering): predicting the future through data based on mathematical knowledge.



Hot pursuit of the times, self-achievement.

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




Third, the basic steps of the data analysis

alt

  3.1 to clear thinking and analytical purposes.

    3.1.1 clear analytical purposes.
  • Decision makers purpose, the analyst provide ideas.
  • Data analysis to determine the purpose and clear analysis of ideas, is a prerequisite for ensuring data analysis process effectively, it can provide a clear guide the direction for the collection, processing and analysis of data.
  • The purpose is the starting point of the whole analysis process. Purpose is not clear will result in the wrong direction.
  • That thinking: Why carry out data analysis by the data analysis to solve the problem?
    3.1.2 Determine analysis of ideas.
  • When a clear purpose, it is necessary school mathematical analysis of ideas, and build the analytical framework, the purpose of the analysis into several different analysis points, namely, how to carry out specific data analysis requires several perspectives from which to analyze, which analyzes the use of indicators.
    3.1.3. How clear analysis purposes?
  • Only the clear purpose of analysis, analytical framework to follow finalized and, finally, to ensure systematic analytical framework to make analysis more convincing.
  • Systematic is logical, simple terms what is the first analysis, what the analysis so that each analysis has a logical connection between points.
  • I do not know where to start to avoid aspects and contents and index analysis is questioned is reasonable, and complete.
  • So just to let you systematic analytical framework persuasive.
    3.1.4. How to make systematic analytical framework?
  • To make the framework of analysis, we need some marketing and management theory, combined with the actual business case to build, so as to ensure the integrity of the dimensions of analysis, analyze the effectiveness and validity of the results.
  • Such as user behavior theory, analysis indicator framework to build Internet sites are as follows:

alt

    3.1.5. What is a data analysis methodology?
  • With analysis of the data related to the marketing and management theories collectively referred to as data analysis methodology.
  • Such as user behavior theory, PEST analysis, 5W2H analysis and so on, details please visit another blog post:

    B05 - 021, data analysis methodology

  3.2 to data collection.

    3.2.1 What is the data collected?
  • Data collection is determined according to the data analysis framework, data collection process, which provides the basis for the material and data analysis.
  • The data here include first-hand data and secondary data, mainly first-hand data refers to data that can be directly acquired secondary data mainly refers to data obtained after processing and finishing.
    3.2.2. General Data Sources What?
1, the database:

...
Each company has its own business database, storing relevant business data generated from its inception. This business is a huge database of data resources, the need for effective use of them.

2 publications:

...
publications can be used to collect data, including "China Statistical Yearbook," "China Social Statistical Yearbook," "China Population Statistics Yearbook", "Yearbook of World Economy," "World Development Report" and other statistical yearbooks or report.

3, Internet:


随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。

4、市场调查:


进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。

市场调查就是指运用科学的方法,有目的、有系统地收集、记录、整理有关市场营销的信息和资料,分析市场情况,了解市场现状及其发展趋势,为市场预测和营销决策提供客观、正确的数据资料。

市场调查可以弥补其他数据收集方式的不足,但进行市场调查所需的费用较高,而且会存在一定的误差,故仅作参考之用。

  3.3 ~ 数据处理。

    3.3.1 .  什么是数据处理?
  • 数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。
  • 数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
    3.2.2 .  数据处理主要包括哪些?
  • 数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
  • 一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”’的原始数据也需要先进行一定的处理才能使用。
  • 数据处理是数据分析的基础。
  • 通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性。

alt

  3.4 ~ 数据分析。

    3.4.1 .  什么是数据分析?
  • 数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
  • 由于数据分析多是通过软件来完成的,这要求数据分析师不仅要掌握各种数据分析方法,还要熟悉数据分析软件的操作数据挖掘其实是一种高级的数据分析方法,就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。
    3.4.2 .  什么是数据挖掘?
  • 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。
  • 一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在于寻找模式和规律。
    3.4.3 .  数据分析和数据挖掘的区别?
  • 数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。
  • 数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的“更上一楼”。
  • 数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
  • 数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
  • 举个例子说明:你揣着50元去菜市场买菜,对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜,想荤素搭配,你逐一询问价格,不断进行统计分析,能各自买到多少肉,多少菜,大概能吃多久,心里得出一组信息,这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估,根据自己的偏好,营养价值,科学的搭配,用餐时间计划,最有性价比的组合等等,对这些信息进行价值化分析,最终确定一个购买方案,这就是数据挖掘。
  • 数据分析与数据挖掘的结合最终才能落地,将数据的有用性发挥到极致。
  • 关于数据挖掘,涉及的主要方法主要有:数据分析的方法、可视技术、关联法则、神经网络、决策树、遗传算法等。
  • 主要使用的工具有:R语言,SAS,weka,SPSS Modeler(Clementine)等。

  3.5 ~ 数据展现。

  • 一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。
  • 常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等。
  • 大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析所要表达的观点。
  • 记位,一般情况不能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。

  3.6 ~ 报告撰写。

  • 数据分析报告其实是对整个数据分析过程的一个总结与呈现。
  • 通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
  • 一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼 ,提供视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
  • 另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
  • 最后,好的分析报告一定要有建议或解决方案。
  • 作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们做决策时作参考。
  • 所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




四、数据分析行业前景

  4.1 ~ 蓬勃发展的趋势。

alt

  • 从 20 世纪 90 年代起,欧美国家开始大量培养数据分析师,直到现在,对数据分析师的需求仍然长盛不衰,而且还有扩展之势。
对于中国数据分析行业前景和特点,一面网络创始人何明科指出:


1、市场巨大,许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不系统化。目前对数据需求最强烈的行业依次是:金融机构(从基金到银行到保险公司到 P2P 公司),以广告投放及电商为代表的互联网企业等;

2、尚没出现平台级公司的模式(这或许往往是大市场或者大机会出现之前的混沌期);

3、企业技术外包的氛围在国内尚没完全形成,对于一些有能力的技术公司,如果数据需求强烈的话,考虑到自身能力的健全以及数据安全性,往往不会外包或者采用外部模块,而倾向于自建这块业务;

4、未来 BAT 及京东、58 和滴滴打车等企业,凭借其自身产生的海量数据,必然是数据领域的大玩家。
     但是整个行业很大而且需求旺盛,即使没有留给创业公司出现平台级巨型企业的机会,也将留出各种各样的细分市场机会让大家可以获得自己的领地。

  4.2 ~ 数据分析师的职业要求。

    4.2.1 .  懂业务。
  • 从事数据分析工作的前提就是需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独特见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的实用价值。
  • 从另外一个角度来说,懂业务也是数据敏感的体现。不懂业务的数据分析师,看到的只是一个个数字;懂业务的数据分析师,则看到的不仅仅是数字,他明白数字代表什么意义,知道数字是大了还是小了,心中有数,这才是真正意义的数据敏感性。
    4.2.2 .  懂管理。
  • 一方面是搭建数据分析框架的要求,比如数据分析第一步确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,那你如何指导数据分析框架的搭建,以及开展后续的数据分析呢?
  • 懂管理另一方面的作用是针对数据分析结论提出有指导意义的分析建议,如果没有管理理论的支撑,就难以确保分析建议的有效性。
    4.2.3 .  懂分析。
  • 是指掌握数据分析的基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效地开展数据分析。
    4.2.4 .  懂工具。
  • 是指掌握数据分析相关的常用工具。
  • 数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,依靠计算器进行分析是不现实的,必须利用强大的数据分析工具完成数据分析工作。
  • 同样,应该根据研究的问题选择合适的工具,只要能解决问题的工具就是好工具。
    4.2.5 .  懂设计。
  • 是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。
  • 图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等,都需要掌握一定的设计原则。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




五、科技发展带来的挑战

在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。


1、如何实现网站的高可用、易伸缩、可扩展、高安全等目标。
为了解决这样一系列问题,迫使网站的架构在不断发展。
从单一架构迈向高可用架构,这过程中不得不提的就是分布式。

2、用户规模越来越大,由此产生的数据也在以指数倍增长,俗称数据大爆炸。
海量数据处理的场景也越来越多。技术上该如何面对?

  5.1 ~ 分布式系统。

    5.1.1 .  概述。
  • 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。

  • 简单来说就是一群独立计算机集合共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。

  • 分布式意味着可以采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。

  • 计算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。

  • 初代的 web 服务网站架构往往比较简单,应用程序、数据库、文件等所有的资源都在一台服务器上。
    alt
    alt

  • 从分布式系统的概念中我们知道,各个主机之间通信和协调主要通过网络进行,所以,分布式系统中的计算机在空间上几乎没有任何限制,这些计算机可能被放在不同的机柜上,也可能被部署在不同的机房中,还可能在不同的城市中,对于大型的网站甚至可能分布在不同的国家和地区。

    5.1.2 .  特征。
1、分布性:


分布式系统中的多台计算机之间在空间位置上可以随意分布,系统中的多台计算机之间没有主、从之分,即没有控制整个系统的主机,也没有受控的从机。

2、透明性:


系统资源被所有计算机共享。每台计算机不仅可以使用本机的资源,还可以使用分布式系统中其他计算机的资源(包括 CPU、文件、打印机等)。

3、同一性:


同一性:系统中的若干台计算机可以互相协作来完成一个共同的任务,或者说一个程序可以分布在几台计算机上并行地运行。

4、通信性:


系统中任意两台计算机都可以通过通信来交换信息。

    5.1.3 .  常用分布式方案。
1、分布式应用和服务。


将应用和服务进行分层和分割,然后将应用和服务模块进行分布式部署。

这样做不仅可以提高并发访问能力、减少数据库连接和资源消耗,还能使不同应用复用共同的服务,使业务易于扩展。

比如:分布式服务框架 Dubbo。

2、分布式静态资源。


对网站的静态资源如 JS、CSS、图片等资源进行分布式部署可以减轻应用服务器的负载压力,提高访问速度。

比如:CDN。

3、分布式数据和存储。


大型网站常常需要处理海量数据,单台计算机往往无法提供足够的内存空间,可以对这些数据进行分布式存储。

比如 Apache Hadoop HDFS。

4、分布式计算。


随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。

这样可以节约整体计算时间,大大提高计算效率。

比如 Apache Hadoop MapReduce。

    5.1.4 .  分布式、集群。

分布式(distributed)是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。

集群(cluster)是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。

分布式和集群的区别?


共同点:都是多台机器。

分布式:模块功能不一样。
集群:模块功能一样。

  5.2 ~ 海量数据处理。

    5.2.1 .  海量数据的公司及格局。
  • 公开数据显示,互联网搜索巨头百度 2013 年拥有数据量接近 EB 级别。
  • 阿里、腾讯都声明自己存储的数据总量都达到了百 PB 以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百 PB级别。
  • 全球数据量以每两年翻倍的速度增长,在 2010 年已经正式进入 ZB 时代,到 2020 年全球数据总量将达到 44ZB。

alt

    5.2.2 .  海量数据带来的问题。
  • 数据分析的前提是有数据,数据存储的目的是支撑数据分析。
  • 究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
  • 传统的数据存储模式存储容量是有大小限制或者空间局限限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。
  • 当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
  • 以目前互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷的分析计算方式了。
  • 传统的显然力不从心了,而且效率也会非常低下。
  • 这正是传统数据分析领域面临的另一个挑战,如何去分析、计算。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




六、大数据时代

  6.1 ~ 概述。

  • 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
  • 随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。
  • 这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从 Byte、KB、MB、GB、TB 发展到 PB、EB、ZB、YB 甚至 BB 来衡量。
  • 大数据到底是什么?如果简单来理解大数据就是 4V 的特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),即数据体量巨大、数据类型繁多、价值密度低、处理速度快。
  • 但是这样理解会显得太浅显,要想更加全面了解大数据概念可以查看另一篇博文:

  B05 - 020、大数据时代Ⅱ

  6.2 ~ 大数据分析。

    6.2.1 .  大数据分析的由来。
  • 当数据分析遇到大数据时代,于是就产生了完美的契合:大数据分析。
  • 你可以理解大数据分析是指对规模巨大的数据进行分析。
  • 大数据被称为当今最有潜质的 IT 词汇,接踵而来的数据挖掘、数据安全、数据分析、数据存储等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
  • 随着大数据时代的来临,大数据分析也应运而生。
    6.2.2 .  大数据分析的具体含义。

1、大数据分析可以让人们对数据产生更加优质的诠释,而具有预知意义的分析可以让分析员根据可视化分析和数据分析后的结果做出一些预测性的推断。

2、大数据的分析与存储和数据的管理是一些数据分析层面的最佳实践。通过按部就班的流程和工具对数据进行分析可以保证一个预先定义好的高质量的分析结果。

  • 此外需要注意的是:传统的数据分析就是在数据中寻找有价值的规律,这和现在的大数据在方向上是一致的。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




七、大数据分析系统

  7.1 ~ 概念、分类。

    7.1.1 .  数据分析主要功能。
  • 数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。
  • 系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中;然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示。
    7.1.2 .  数据的流转流程。
  • 根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。
  • 当然也会有在这基础上进行相应变化的系统模型。
    7.1.3 .  数据分析的时效性。
  • 按照数据分析的时效性,我们一般会把大数据分析系统分为实时、离线两种类型。
  • 实时数据分析系统在时效上有强烈的保证,数据是实时流动的,相应的一些分析情况也是实时的。
  • 而离线数据分析系统更多的是对已有的数据进行分析,时效性上的要求会相对低一点。时效性的标准都是以人可以接受来划分的。

离线计算(处理):处理历史数据,面向过去分析。称之为批(batch)处理。

实时计算(处理):处理当下实时产生的数据,称之为流(stream)式处理。

  7.2 ~ 网站流量日志数据分析系统初识。

alt

  • 网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。
  • 从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。
    7.2.1 .  技术上。

You can modify the site structure is reasonable and appropriate allocation of resources to build back-end server group, such as:
1, the auxiliary network topology design improvements to improve performance.
2, between the nodes that are highly relevant arrangements for fast and efficient access path.
3, to help companies better design website home page and arrange web content.

    7.2.2. On business.

1, help companies improve marketing decisions, such as advertising on the appropriate Web page.
2, page optimization and business process design, increase traffic conversion rate.
3, to help companies better to arrange content according to the customer's interest.
4, help enterprises to segment the customer base, the development of personalized promotional strategies for different clients.

  • The ultimate goal: to improve the operation of the site, get a higher return on investment (ROI). That is, to make more money.


Hot pursuit of the times, self-achievement.

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

^ So far, the big data era Ⅰ completed.


- - - - - - - - - - - - - - - - - - - - - - - - - - - -


※ worldly temptations so great that the firm always moved.

Find k-th largest numbers in the N-order numbers, the time complexity can be reduced to?

...
A, O (N * logN)
B, O (N)
C, O (1)
D, O (2)
...
B
alt



Hot pursuit of the times, self-achievement.

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


Note: CSDN end of the phone does not support chapter jumps within the chain, but the chain is available, also requested a better experience on the PC side.

I know my weakness, I know what you are picky, but I just I do not like fireworks, thank you for pointing, creating a piece of me :)!



Hot pursuit of the times, self-achievement.


Guess you like

Origin blog.csdn.net/weixin_42464054/article/details/92062518