[统计学笔记二] 收集数据

[统计学笔记二] 收集数据


数据是什么?

数据、信息和知识被广泛的用于计算机科学领域。

数据是信息的载体,信息是数据的语义解释。数据是得出结论的前提。信息是处理后的数据,为实际问题提供答案。

当我们增加一种关系或者一个关联时,数据就成为信息。这种关联通过提供数据背景来完成。这各背景有助于我们回答数据相关的问题。

数据有很多种表现形式,例如:

  • CSV文件
  • 数据库
  • 文件格式(Excel、PDF、Word等)
  • HTML文件、XML文件
  • JSON文件
  • 文本文件
  • ……

知识是数据、信息通过经验获得的技能。知识包括做出适当决策的能力和执行时所需的技能。

收集数据的目的是为了进一步分析数据中隐藏的特征、规律、关联关系等,从而揭示数据背后隐藏的真相。为了基于已有数据信息得到最佳或者现实的决策,数据分析就尤为重要。

数据需要通过收集、处理和组织,才能够用于数据分析。



原始数据的收集


数据收集的分类
1.    按数据收集的组织方式不同,分为统计报表和专门调查
       统计报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。
       专门调查:为了某一特定目的或专门问题而专门组织的调查
2.    按数据收集对象包括范围的大小不同,分为全面调查和非全面调查
       全面调查:对构成调查对象中的所有党委进行一一不漏的调查
       非全面调查:是在统计调查过程中,仅对调查中的一部分单位进行调查。 包括:抽样调查、重点调查、典型调查和非全面统计报表
3.    按数据收集的登记时间是否连续,分为经常性调查和一次性调查
       经常性调查:又称连续性调查,它是为了观察社会经济现象在一定时期内的数量变化所进行的调查登记或数据收集
       一次性调查:又称不连续性调查,它是对所研究的社会经济现象间隔一段时间所进行的调查登记或数据收集
4.    按数据收集实施主体的不同,分为政府统计调查和民间统计调查
数据收集的调查方式
数据收集的调查方式,按照组织方式主要有:普查、抽样调查、典型调查、重点调查和统计报表制度
1.    普查:专门组织的一次性全面调查
       普查的特点:
       ⑴通常是一次性调查,周期性强
       ⑵全面性调查,收集的资料全面、系统、准确
       ⑶ 普查的点多面广,工作量大,投入多
       普查应遵循以下原则:
       ⑴时间统一性原则
       ⑵登记工作的规范性原则
       ⑶普查项目统一规定原则
       ⑷同类普查同周期性原则
2.    抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本数据推断总体数量特征的一种非全面调查。
       (1)概率抽样:根据随机原则从总体中抽选样本,并根据样本信息对总体的某些特征做出估计推断,对推断可能出现的误差可以从概率意义上加以控制。
       (2)非概率抽样:调查组根据自己的方便或主观判断抽取样本的方法
                抽样调查优势:经济性、时效性、准确性
        (3)几种具体的抽样方式:
           ① 简单随机抽样——是指从总体N个单位中随机抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
           ② 分层抽样——主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。共同点:每个个体被抽到的概率都相等N/M。
           ③ 整群抽样——是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。【应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小】
           ④ 等距抽样——首先将总体各单位按一定顺序排列,更具样本容量大小确定抽选间隔,然后随机抽取一个进入样本,直到满足要求为止的一种抽样方式
           ⑤ 多阶段抽样——是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,其在大型流行病学调查中常用。
第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;
第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本
3. 典型调查:
    从调查对象的全部单位中选择少数典型单位进行调查。目的是描述和揭示事物的本质特征和规律。调查结果不能用于推断总体
4.重点调查:
   从调查对象的全部单位中选择少数重点单位进行调查。调查结果不能用于推断总体
5. 统计报表制度:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。
    统计报表内容:报表目录、报表表式、填表说明
    统计报表的资料来源:原始记录、统计台账、企业内部报表
数据收集的方法
 1.问卷法: 邮寄调查、电话调查、电脑辅助电话调查、网络调查
 2.访谈法
    优点:广泛地认识客观现象、深入地研究问题、资料收集可靠和应用面很广
    缺点:必须依赖具有较高素质的访问员、直接交谈会对获取资料的客观性产生负面影响、在不便询问时访谈无法实施、调查费用大、时间长,可能会碰到意料不到的困难
    集体访谈:将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料
   【常用的有:头脑风暴法、德尔非法(专家意见法)、深度访谈法】
    个别访谈:调查者对每一名受访者进行一对一单独访谈。
  3. 观察法:
      就调查对象的行动和意识,调查人员边观察边记录以收集所需信息
      调查人员不是强行介入
      能够在被调查者不察觉的情况下获得资料
   4.实验方法

      在实验中控制一个或者多个变量,在有控制条件下得到观测结果。

      实验不仅是收集数据的一种方式,而且是一种研究方法。

      在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。有室内实验法和市场实验法。

扫描二维码关注公众号,回复: 10268194 查看本文章
发布了619 篇原创文章 · 获赞 185 · 访问量 66万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/104907580
今日推荐