表结构数据介绍

表结构数据的介绍

对表结构数据的理解越清晰,对表结构数据进行处理的工具的使用就越得心应手。比如用MYSQL、SQL sever 等软件对“大”数据进行清洗等,都会有极大的帮助!下面是落花生对表结构数据的认识:

何为表结构数据?

它就是数据库结构的数据。认识它要注意以下几点:
1.以整列数据为基本计算单位;
2.不能在行、特定值处进行操作;
3.行称为“记录”,列称为“字段”;
4.字段的集合称为表,表的集合称为数据库。
另外,它还有以下特征:
1.一个字段的数据类型是唯一的;
2.用字段名来定位字段;
3.一个表的所有字段的记录数(行)必须相同;
4.用表名来定义表;
5.一个表必须有一个主键,主键要求为非空不重复(主键是表的记录单位,用于识别定位表中的不同行,表中的其他字段皆围绕主键展开);
6.表中可以没有值,但也要占一行记录,会被计算机以NULL来填充,处理时也要做空值替换;

表结构数据何以得势?

表格结构数据最常见的就是excel一般处理的数据,能对特定单元格、行数据进行操作。导致在数据量很大的时候,处理效率会变得很慢,也容易时设备卡机(excel得表结构数据格式转换可以江excel中的表格结构数据化为表格结构)。那么,表结构数据的优势就显而易见:
1.轻松容易的关联、整合不同数据源的数据;
2.能大批量处理数据,效率非常高;
3.于不同表间建立联系,将不同维度的数据整合成多维度的信息精准的多维度数据模型;
4.对零散数据可以进行不同维度的汇总观测;
5.大部分表结构数据处理工具记录的是处理过程,下次进行处理时不需要向传统EXCEL处理数据那样重新操作过程。
在大数据时代背景下,表结构数据的这些优势自然使其更能得到数据分析工作者得青睐。

表连接?

表连接就是按数据使用者的需求,用表结构数据处理工具(如mysql)对不同维度的表进行维度整合,对所需信息进行汇总观察的基本操作。也是表结构数据的精要之处。
通常有左连接、右连接、内连接三种方式,连接的桥梁是各表的主键。两表的连接最后的结果由下面三个属性决定:
1.方向性:在SQL语句中写在前面的是左表、后面的是右表;
2.主附关系:主表要能给出所有的数据范围,附表不能给主表匹配上值时,计算机会以null补上,内连接没有主附之分;
3.对应关系:关键字中由重复值的为多表,无重复值的为一表。

变量?

表结构数据中的变量指的是表中字段在不同的环境下的角色所具备的属性。此处的划分没有统计学上的划分明细,主要分为名义型变量、有序型变量、连续型变量:
1.名义型变量:为文本、字符,单纯定义名称用,值与值之间没有顺序关系、大小关系。如“性别”,“血型”,“类型”,“姓名”等等;
2.有序型变量:为文本、字符,值与值之间存在大小、顺序关系。如“等级”,“排名”,“职称”等等。
3.连续型变量:为数值,值与值之间由大小、顺序关系且取值连贯。如“年龄”,“产量”,“销售额”等等。

数据透视?

数据透视也就是对数据进行汇总观察,也是业务数据分析师最主要的分析手段。用来将零散的数据汇总为一般人能解读的汇总值,汇总值由维度、度量、汇总方法构成:
1.维度:有序型或名义型变量、也叫分组依据、分为汇总维度及筛选维度两类
2.度量:维度汇总的对象、绝大多数情况下使用连续型变量
3.汇总规则:连接维度与度量的桥梁、有以下五种基本汇总规则:
a.求和(sum):度量值的加总;
b.求平均(average):度量值的合计值/度量值的行数;
c.最大值(max):度量值中的最大值;
d. 最小值(min):度量值中的最小值;
e.计数(count):数行数。

特别注意!!!

1.名义型通常为文本,在数据分析中角色为维度,可作为主键;有序型变量通常为文本或数值,在数据分析中的角色为维度,可作为主键;连续型数据为数值,在数据分析中角色为度量,不可作为主键。
2.两表合并后,一表出度量进行汇总时,汇总值会在多表重复项下翻倍。如果两表是多对多的连接关系,不管哪个表出度量都会在另一个表的重复项下翻倍
3.表连接中谨记:多表出度量作主表,一表出维度作附表。

嗯~~~,上面就是落花生对表结构数据的“小白”认知,还有很多知识点如ER图等未做介绍,不足之处请诸君多多指教!谢谢啦!

发布了39 篇原创文章 · 获赞 42 · 访问量 4881

猜你喜欢

转载自blog.csdn.net/weixin_41774099/article/details/95994294
今日推荐