[统计学笔记一] 统计学的基本概念

[统计学笔记一] 统计学的基本概念

统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。人们用数据发现规律从而做出更好的决策。要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。

分析数据的方法有描述统计、推断统计。

  • 描述统计

①描述统计是将所收集的 数据处理后,用数值、表格或图形形式表现 的有用信息。

②描述统计是基础,它 为推断统计、统计咨询、统计决策提供必要的信息。

  • 推断统计就是根据样本数据特征去估计或检验总体的数据特征。

统计学是如何解决实际问题的

统计学解决实际问题的基本思路是:
       ① 提出与统计有关的实际问题;
       ② 建立有效的指标体系;
       ③ 收集数据;
       ④ 选用或创造有效的统计方法处理、显示所收集数据的特征;
       ⑤ 根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断;
       ⑥ 根据推断给出更好决策的建议;
       在解决问题时,重复第②-⑥步。


    
统计学中几个基本概念

总体、单位和样本

  • 总体:统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。

(1)同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。

(2)统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。

  • 总体单位(简称单位)是组成总体的各个个体。
  • 样本:由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。

统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

标志、指标(参数)和统计量

  • 标志:总体单位普遍具有的属性或特征称为标志。标志按其表现分为品质标志和数量标志两种。

       ① 品质标志表明单位属性方面的特征,品质标志的表现只能用非数值来描述。 例如商品的类别;居民的性别等。
       ② 数量标志表明单位数量方面的特征,其表现用数值来描述。例如:商品的价格,销量;居民的收入等。

  • 参数(标志):统计总体具有的数量特征的概念和数值称为统计指标,也称为参数。统计指标由两项基本要素构成,即指标的概念和指标的取值。指标的概念是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。例如:居民人口数1000万人,总收入600亿元。

统计指标按表示形式可以分为数量指标和质量指标。

① 凡是反映现象总规模、总水平的统计指标称为数量指标,用绝对数来表示。例如居民总数1000万人、总收入600亿元等。
② 凡是反映现象相对水平和工作质量的统计指标称为质量指标,用相对数或平均数来表示.例如企业职工平均工资5000元、工人出勤率93%等。质量指标是总量指标的派生指标,以反映现象之间的内在联系和对比关系。

单个指标不能反映总体的全貌,这便需要设立指标体系。统计指标体系是由一系列相互联系的统计指标组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系。

  • 统计量

       统计量是样本观测量的一个已知函数,用来说明样本的特征。是样本观测量的一个已知函数,用来说明样本的特征。

       抽取的样本不同,统计量的观测值也就不同。如样本平均数、样本方差、样本比例是统计量,抽取样本后,人们通常用与总体参数对应的统计量观测值, 作为总体参数的估计。(如某汽车制造企业从生产的一批轿车中抽取了16辆轿车,用这些轿车的平均行驶里程值、合格率值分别作为该批轿车平均行驶里程、合格率的估计。)


数据

变量与变量值
1. 即说明现象的某一事实或数量的特征称为变量,将上述标志、指标和统计量的名称进行归纳就是变量。
2. 变量的具体表现是变量值,数据就是变量及其表现,也可称为反映客观事物的事实或数量依据。
    例如:收入是一个变量,收入的表现是变量值。
3. 将在特定研究过程中收集的所有数据集合在一起,称为数据集。
4. 根据变量值的确定与否,变量分为确定性变量(受确定性因素影响,因素是明确的,可解释,可控制的)与随机变量(受许多不确定因素影响,如员工的起床时间)。

数据的计量尺度

收集数据时需要用到以下四种由低到高的计量尺度:定类尺度、定序尺度、定距尺度和定比尺度,计量尺度的不同决定了不同的数据分析与处理方法。
1. 定类尺度是说明客观现象无序类别的计量。定类尺度的主要数学特征是“=”或“≠”.如居民的性别是男、女计量,战机的类型是战斗机、轰炸机、侦察机等计量,这一场合的所使用的数值只作为无序分类的代码。
2. 定序尺度是说明客观现象有序类别的非数值计量。定序尺度的主要数学特征是“<”或“>”.例如,对居民的满意度计量可以分为非常满意、满意、一般、不满意、非常不满意五类。这一场合的所使用的数值只作为有序分类的代码。
3. 定距尺度是说明客观现象数值间距有意义的计量。其用确切的数值反映现象之间在量方面的差异,定距尺度的主要数学特征是“+”“–” 。如总量指标是定距尺度计量的。
(0不代表不存在)
4. 定比尺度是说明客观现象两个数值比有意义的计量。定比尺度的主要数学特征是“x”“/”
如质量指标中的相对数、平均数是定比尺度计量的(0代表不存在)
5 数据分类
(1)定类尺度,定序尺度的数据统称为定性数据。定性变量是指带有定性数据的变量。
(2)定距尺度,定比尺度的数据统称为为定量数据。定量变量是指带有定量数据的变量。
         根据定量变量值连续出现与否,定量变量分为连续性变量与离散型变量。
         ①连续型变量是指变量在某一区域内的取值是连续不断的,无法一一列举。如:军机的弹孔位置,产品的寿命等。
         ②离散型变量是指变量的取值是间断的,可以一一列举。例如,产品数等。 

数据的类型


根据对客观现象观察的角度不同,统计数据可分为:横截面数据、时间序列数据和面板数据。
1. 横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位进行观察而获得的数据。例如,2014年全国各省、市、自治区的居民收入总值就属于横截面数据。
2. 时间序列数据又称为动态数据,它是指在某一段时期内按时间顺序对同一总体进行观察而获得的数据。例如,“十二五”期间我国按年份顺序的居民收入总值就属于时间序列数据。
3. 面板数据则是同时在时间和截面空间上取得的二维数据。例如2005-2014年30个企业的总产值数据。面板数据则由30个企业10年的数据组成,共有300个观测值。从某一年份看,它是由30个企业总产值数。

发布了619 篇原创文章 · 获赞 185 · 访问量 66万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/104889978