记录一些杂七杂八的数据分析

1、数据库的独立性

--模式与内模式的映射 保证数据库物理结构的独立性

--模式与外模式的映射 保证数据库逻辑结构的独立性

2、常见的数据库

Oracle数据库,SQL Server数据库,MySQL数据库,PostgreSQL数据库。

3、数据分类

 4、数据处理流水线

数据获取 :从各种渠道获取到待处理的数据,这是首要步骤。

数据清洗:检查、修正不正确的数据、移除无效数据,移除无用数据,为后续的处理做准备

数据转换:将非结构化、不规范的数据,转换成便于分析处理的结构化数据

数据分析:对数据进行分析,得出一些有用的结论或进行决策

数据存储:一般分析结果会存储到数据库或文件中,便于后续的使用

5、用python进行数据分析常用的三个包

(1)numpy:

        numpy主要用于处理一维或者多维数组。常用的有创建数组、查看数据类型、查看数组大小、以及索引和切片等操作。

(2)pandas:

       pandas基于numpy的库,提供了更高级别的数据分析工具。 常见的比如dataframe,属于一个表格型的数据结构。可以进行数据清洗、转换、聚合等操作。

(3)matplotlib:

        主要用于对数据制成图表进行可视化。

6、数据清洗包括什么:

处理缺失值、重复值、异常值。

(1)处理缺失值

① 对缺失值过滤,删除缺失值所在的空行。

② 利用fillna()对缺失值进行填充。

(2)处理重复值

用drop_duplicates()

7、做一个项目要了解哪些东西

项目背景、项目意义、需求、项目组织框架、项目计划、沟通计划。

猜你喜欢

转载自blog.csdn.net/xing09268/article/details/130631358