开会时间:2023.06.1 15:00 线下会议
目录
01【调研-计算(实时、离线)】
1.1【流程图】
开始 -> 数据采集 -> 数据存储 -> 数据预处理 -> 实时计算 -> 结果存储和展示 -> 离线计算 -> 最终结果
1.2【架构图】
+---------------------+
| |
+----------+ 实时计算引擎 +-----------+
| | | |
| +----------+----------+ |
| | |
| | |
| | |
| | |
| | |
+-----v----+ +-----v-----+ +-----v-----+
| | | | | |
| 数据采集 | | 数据存储 | | 结果存储 |
| | | | | 和展示 |
+-----+----+ +-----+-----+ +-----+-----+
| | |
| | |
| | |
| | |
| +----------+----------+ |
| | | |
+----------+ 离线计算引擎 +-----------+
| |
+---------------------+
1.3【使用场景】
- 实时计算:大数据实时计算广泛应用于金融行业,例如实时风险管理、欺诈检测和股票交易分析。它还用于智能城市,例如实时交通监控和环境监测。
- 离线计算:大数据离线计算通常用于数据挖掘和分析任务。它可以用于市场营销分析、用户行为分析、推荐系统和业务智能分析等领域。
1.4【技术架构】
大数据计算的技术架构通常包括以下组件:
- 数据采集:用于从各种来源收集大规模数据的组件,例如传感器、日志文件、数据库等。常见的数据采集工具包括Flume、Kafka和Logstash。
- 数据存储:用于持久化存储大量数据的组件。在大数据领域,常见的数据存储技术包括Hadoop分布式文件系统(HDFS)、Amazon S3、Google Cloud Storage和Azure Blob Storage。
- 数据预处理:用于对原始数据进行清洗、转换和规范化的组件。数据预处理阶段可能涉及数据清洗、缺失值处理、数据格式转换等操作。常见的数据预处理工具包括Apache Spark和Apache Flink。
- 实时计算引擎:用于处理实时数据流并产生实时计算结果的组件。这些引擎能够实时处理数据流,并执行各种计算、聚合和过滤操作。常见的实时计算引擎包括Apache Storm、Apache Kafka Streams、Apache Samza和Spark Streaming。
- 结果存储和展示:用于将计算结果存储并展示给用户或其他系统的组件。结果存储可以是关系型数据库、NoSQL数据库或数据仓库,展示可以是Web界面、报表或可视化工具。常见的结果存储和展示技术包括Apache HBase、Elasticsearch、Kibana和Tableau。
- 离线计算引擎:用于对大规模数据集进行离线分析和计算的组件。离线计算引擎通常用于批处理任务,可以执行复杂的数据分析、挖掘和机器学习算法。常见的离线计算引擎包括Apache Hadoop、Apache Spark和Apache Flink。
以上是大数据计算的典型技术架构组件,实际应用中可能会根据具体需求和系统规模进行调整和扩展。此外,还有其他一些辅助组件和工具,例如数据调度器(如Apache Oozie)、任务调度器(如Apache Mesos和Kubernetes)以及安全和监控工具等,用于增强大数据计算的可靠性、安全性和可管理性。
02【fhzn项目】
1、创建es索引。
2、多维度检索方案设计,es多条件查询接口。
3、git提交代码。
03【专利】
...