大数据周会-本周学习内容总结017

开会时间:2023.06.1 15:00 线下会议

目录

01【调研-计算(实时、离线)】

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

03【专利】


01【调研-计算(实时、离线)】

1.1【流程图】

开始 -> 数据采集 -> 数据存储 -> 数据预处理 -> 实时计算 -> 结果存储和展示 -> 离线计算 -> 最终结果

1.2【架构图】

                 +---------------------+
                 |                     |
      +----------+   实时计算引擎      +-----------+
      |          |                     |           |
      |          +----------+----------+           |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
+-----v----+          +-----v-----+          +-----v-----+
|          |          |           |          |           |
| 数据采集  |          | 数据存储  |          |  结果存储  |
|          |          |           |          |   和展示   |
+-----+----+          +-----+-----+          +-----+-----+
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |                     |                      |
      |          +----------+----------+           |
      |          |                     |           |
      +----------+   离线计算引擎      +-----------+
                 |                     |
                 +---------------------+

1.3【使用场景】

  1. 实时计算:大数据实时计算广泛应用于金融行业,例如实时风险管理、欺诈检测和股票交易分析。它还用于智能城市,例如实时交通监控和环境监测。
  2. 离线计算:大数据离线计算通常用于数据挖掘和分析任务。它可以用于市场营销分析、用户行为分析、推荐系统和业务智能分析等领域。

1.4【技术架构】

大数据计算的技术架构通常包括以下组件:

  1. 数据采集:用于从各种来源收集大规模数据的组件,例如传感器、日志文件、数据库等。常见的数据采集工具包括Flume、Kafka和Logstash。
  2. 数据存储:用于持久化存储大量数据的组件。在大数据领域,常见的数据存储技术包括Hadoop分布式文件系统(HDFS)、Amazon S3、Google Cloud Storage和Azure Blob Storage。
  3. 数据预处理:用于对原始数据进行清洗、转换和规范化的组件。数据预处理阶段可能涉及数据清洗、缺失值处理、数据格式转换等操作。常见的数据预处理工具包括Apache Spark和Apache Flink。
  4. 实时计算引擎:用于处理实时数据流并产生实时计算结果的组件。这些引擎能够实时处理数据流,并执行各种计算、聚合和过滤操作。常见的实时计算引擎包括Apache Storm、Apache Kafka Streams、Apache Samza和Spark Streaming。
  5. 结果存储和展示:用于将计算结果存储并展示给用户或其他系统的组件。结果存储可以是关系型数据库、NoSQL数据库或数据仓库,展示可以是Web界面、报表或可视化工具。常见的结果存储和展示技术包括Apache HBase、Elasticsearch、Kibana和Tableau。
  6. 离线计算引擎:用于对大规模数据集进行离线分析和计算的组件。离线计算引擎通常用于批处理任务,可以执行复杂的数据分析、挖掘和机器学习算法。常见的离线计算引擎包括Apache Hadoop、Apache Spark和Apache Flink。

以上是大数据计算的典型技术架构组件,实际应用中可能会根据具体需求和系统规模进行调整和扩展。此外,还有其他一些辅助组件和工具,例如数据调度器(如Apache Oozie)、任务调度器(如Apache Mesos和Kubernetes)以及安全和监控工具等,用于增强大数据计算的可靠性、安全性和可管理性。

02【fhzn项目】

1、创建es索引。

2、多维度检索方案设计,es多条件查询接口。

3、git提交代码。

03【专利】

...

猜你喜欢

转载自blog.csdn.net/weixin_44949135/article/details/131153226
今日推荐