01【调研-计算（实时、离线）】

1.1【流程图】

开始 -> 数据采集 -> 数据存储 -> 数据预处理 -> 实时计算 -> 结果存储和展示 -> 离线计算 -> 最终结果

1.2【架构图】

                 +---------------------+
                 |                     |
      +----------+   实时计算引擎      +-----------+
      |          |                     |           |
      |          +----------+----------+           |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
+-----v----+          +-----v-----+          +-----v-----+
|          |          |           |          |           |
| 数据采集  |          | 数据存储  |          |  结果存储  |
|          |          |           |          |   和展示   |
+-----+----+          +-----+-----+          +-----+-----+
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |          +----------+----------+           |
      |          |                     |           |
      +----------+   离线计算引擎      +-----------+
                 |                     |
                 +---------------------+

1.3【使用场景】

实时计算：大数据实时计算广泛应用于金融行业，例如实时风险管理、欺诈检测和股票交易分析。它还用于智能城市，例如实时交通监控和环境监测。
离线计算：大数据离线计算通常用于数据挖掘和分析任务。它可以用于市场营销分析、用户行为分析、推荐系统和业务智能分析等领域。

1.4【技术架构】

大数据计算的技术架构通常包括以下组件：

数据采集：用于从各种来源收集大规模数据的组件，例如传感器、日志文件、数据库等。常见的数据采集工具包括Flume、Kafka和Logstash。
数据存储：用于持久化存储大量数据的组件。在大数据领域，常见的数据存储技术包括Hadoop分布式文件系统（HDFS）、Amazon S3、Google Cloud Storage和Azure Blob Storage。
数据预处理：用于对原始数据进行清洗、转换和规范化的组件。数据预处理阶段可能涉及数据清洗、缺失值处理、数据格式转换等操作。常见的数据预处理工具包括Apache Spark和Apache Flink。
实时计算引擎：用于处理实时数据流并产生实时计算结果的组件。这些引擎能够实时处理数据流，并执行各种计算、聚合和过滤操作。常见的实时计算引擎包括Apache Storm、Apache Kafka Streams、Apache Samza和Spark Streaming。
结果存储和展示：用于将计算结果存储并展示给用户或其他系统的组件。结果存储可以是关系型数据库、NoSQL数据库或数据仓库，展示可以是Web界面、报表或可视化工具。常见的结果存储和展示技术包括Apache HBase、Elasticsearch、Kibana和Tableau。
离线计算引擎：用于对大规模数据集进行离线分析和计算的组件。离线计算引擎通常用于批处理任务，可以执行复杂的数据分析、挖掘和机器学习算法。常见的离线计算引擎包括Apache Hadoop、Apache Spark和Apache Flink。

以上是大数据计算的典型技术架构组件，实际应用中可能会根据具体需求和系统规模进行调整和扩展。此外，还有其他一些辅助组件和工具，例如数据调度器（如Apache Oozie）、任务调度器（如Apache Mesos和Kubernetes）以及安全和监控工具等，用于增强大数据计算的可靠性、安全性和可管理性。

02【fhzn项目】

1、创建es索引。

2、多维度检索方案设计，es多条件查询接口。

3、git提交代码。

03【专利】

...

大数据周会-本周学习内容总结017

01【调研-计算（实时、离线）】

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

03【专利】

猜你喜欢