大数据周会-本周学习内容总结018

开会时间:2023.06.18 15:00 线下会议

01【调研-数据分析(质量、ETL、可视化)】

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

数据分析是指通过收集、清洗、整理和解释数据,以提取有价值的信息和洞察力的过程。在数据分析中,有几个重要的方面需要考虑,包括数据质量、ETL(抽取、转换和加载)和可视化。

  1. 数据质量: 数据质量是确保数据准确、完整、一致和可靠的度量。在数据分析中,数据质量对于得出准确的结论和做出正确的决策至关重要。以下是一些确保数据质量的常见方法:
    1. 数据清洗:去除数据中的重复项、空值、异常值和错误数据。
    2. 数据验证:检查数据是否符合事先定义的规则和约束。
    3. 数据整合:将来自不同来源的数据整合在一起,确保数据的一致性和完整性。
    4. 数据审查:评估数据的准确性、完整性和一致性,并解决潜在的数据质量问题。
  2. ETL(抽取、转换和加载): ETL是指将数据从各种来源(如数据库、日志文件、API等)中抽取出来,进行必要的转换和清洗,然后加载到目标系统中进行分析的过程。以下是ETL过程的主要步骤:
    1. 数据抽取:从各种来源中提取数据,通常使用查询、API调用或文件导入等方法。
    2. 数据转换:对抽取的数据进行清洗、整合、转换和规范化,以便符合分析的需求。
    3. 数据加载:将转换后的数据加载到目标系统(如数据仓库、数据湖等)中,以便进行进一步的分析和可视化。
  3. 可视化: 可视化是将数据转换为图表、图形和其他可视元素的过程,以便更好地理解和传达数据中的模式、趋势和洞察力。以下是可视化的一些常见方法和工具:
    1. 图表和图形:使用柱状图、折线图、饼图、散点图等图表类型来展示数据。
    2. 仪表板:通过将多个图表和指标组合在一起,提供对数据的全面和实时的可视化展示。
    3. 数据可视化工具:例如Tableau、Power BI、Matplotlib、D3.js等工具,提供丰富的可视化功能和交互性,帮助用户更好地探索和解释数据。

综上所述,数据分析过程涉及到确保数据质量、进行ETL以及进行数据可视化,以获得准确、可靠且有意义的结果和洞察力。

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

2.1【es多维度检索接口】

多维度检索方案设计,es多条件查询接口。

接口编写、git提交代码。

2.2【AI算法库资料整理】

第一阶段任务,参考两个推荐文献,抽象出 AI 领域的一个总体结构,包括内部包含的不同类别的算法和常用算法。这里可以参考分成四个部分总结。

  1. 第一部分:关于 AI 领域的发展历程、由一开始的专家系统到后面的神经网络做一个全局的说明和叙述。
  2. 第二部分:阐述 AI 领域内一些概念或术语上的解释,如训练、损失、评估器优化器之类的概念。
  3. 第三部分:是理论层面的,包括回归、分类等任务常见算法。
  4. 第四部分:列出不同目前工业领域 AI 火热的领域,如 NLP、视觉领域,再往下细分,列出一些更细的方向和每个方向下的常见算法,先把总体的资料库骨架抽象出来后续填充内容。

神经网络与深度学习-邱锡鹏.pdf

03【专利】

fastDFS、轮循机制、

04【学习内容】

4.1【flink】

  1. 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】
  2. 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】

猜你喜欢

转载自blog.csdn.net/weixin_44949135/article/details/131276349
今日推荐