攻克论文写作系列之7：Data Collection--你以为"数据"就只是"数据"吗？

来源|刀熊说说

文|刀熊

这几天开车往返于洛杉矶和Santa Barbara之间收集数据，自从搬来加州连收集数据的地方都变得高大上了，沿着一号公路一路北上，开出洛杉矶市区后忽然映眼一片闪亮亮的海，一路美不胜收。这是做researcher的bonus, 你并没有期待去偶遇美景，可如果收数据刚好要去Santa Barbara这样美好的地方，你是不是该觉得自己是天下最幸福的人呢？

于是乎让我顺便讲讲数据收集吧~

Edwards Deming说过一句著名的话：“In God we trust, rest bring data" (除了上帝，其他任何人都必须用数据说话”)。这可不只是跟着“大数据时代”而流行起来的一句话，美国人重视数据的传统由来已久，什么是事实，什么是有证据的，什么是猜测，什么是尚无证据的，认认真真地划分清楚，一丝不苟。

Data (数据）这个词容易使人产生误解。从社科研究的角度讲，数据不是只限于“数字”类的，而是既包括quantitative data，又包括qualitative data。比如我告诉美国同事我去collect data了，他们会首先想到我跟要研究的对象见面了；而我跟国内的朋友聊起我去收集数据了，他说你为什么要去那么老远的地方找个数，你又不是勘察队的要进山测量吗...

似乎“数据”这个说法比“data"更容易让人误解。跟许多其他中文别扭的学术名词一样---这也是我强烈推荐看英文原版research methods教材的重要原因之一，概念本身呈现出的复杂性会严重影响我们对知识的理解，我阅读英文教材几年后时而看到某个对应的中文，会忽然恍然大悟当年本科时候学过的这个词原来是这个意思。不知道为什么，英文有种简单明了极为有助于理解的力量，这大概是为什么以增加效率为目的情况英语往往是最好用的，谁也蒙不了谁，就是这么straightforward。中文含义深邃丰富，在传递信息有效性的方面就时常需要让步。（想找英文research methods入门教材的同学我会首推这两本在课上使用的有什么比较好的社会科学研究方法的书目推荐？ - 知乎）

说回data. 简单来讲，常用的数据可以这么分类：一手数据(primary data) 和二手数据 (secondary data)

大家有没有想过，我们每天从外界摄取的信息，有多少真的是一手信息，有多少是二手三手甚至四五手信息？比如说哪个新电影上映了，你女朋友或男朋友兴高采烈地跑来跟你说我们周末去看这个电影吧，我听同事说这个电影不错。如果把电影好不好看作为一个研究问题，把你对看哪个电影的决策过程看成一次research process, 你其实使用的是三手数据（当然严格意义只有一手和二手两类哈，别在论文里说我是用的是三手数据），因为第一你并没有自己去看，第二你也没有去问去看过的人，你这里使用的信息是你女朋友转述的去看过的人的反馈。当然我们日常生活中这种信息使用方式很正常，而且不难发现我们其实经常使用四手五手甚至可能十几手的信息，我们只是很难去在意或察觉，而且这往往是很自然发生的，即便信息被误传对我们也没什么太大影响，也就是在电影院浪费了两个小时时间或是一顿饭钱花的不值。我看过一些文章提倡少看多手信息而多看一二手信息，我不觉得多手信息就一定不好，在无关痛痒的事情上往往多手信息使传递更有效，比如微信中的很多文章其实都是将很多别人的观点掰开了揉碎了再发出去，一定程度上其实也会增加不少知识的易读性。

然而做research就不一样了，第一你做的东西往往是极富创新性的东西，是别人没研究过的问题或者没提出过的视角，本来涉猎过或体验过的人就不多，你能贡献的最大价值往往就是你自己去找来一手数据贡献给大家。比如一个做导演的朋友最近跟我说他在写一个交互式的电影剧本，这种电影演着演着忽然场景定住然后给你一个选项去决定主角接下来该怎么选择，有点像vedio games，你可以决定剧情的发展。如果你是一个研究这种电影剧本的researcher，你大概最好的办法就是自己去看一个这样的电影，或者自己写一个，或者至少跟写过的人聊聊天，因为本来了解和体验过的人就不多嘛，你把体验后的事实准确地分享给大家，这本身就很有价值。

第二个research和日常生活对data使用的不同当然就是“严谨性”，否则research也就不是research了。生活中看哪个电影的决策，去哪个饭店吃饭的决策，买哪个牌子化妆品的决策，这些都是影响不大错了也就错了的事情，然而research要做的是尽最大的可能去追求事情的真相，然后以最precise的方式呈现给读者。你在research中错了任何一点，都可能误导后面的研究者，误导研究者的研究者，这种错误会是几何量级的，不容小觑的。

所以说回来，做research的时候怎么选择data，收集什么样的data是个大问题，跟日常生活中我们对信息的处理是不一样的。

你可能还会问，那我没有data行不行？干嘛非要用data?

没有data 当然是可以的。这要牵出另外一个话题就是research的分类：social research可以分为Emprical research （实证研究）和 Conceptual research（概念性研究）两大类。Empirical study 是社科类研究现在占主流的一种研究方式，最大特点是研究是基于“data” 和 “evidence"的，我的研究结果是靠我观察到、采访到、调查来的证据说话的。既然有data，就要依据相关的数据分析方法规规矩矩的挖掘data和依据data而得出结论，一切靠证据说话。第二类conceptual research也就是不使用传统意义上data的，比如，文献综述类文章，收集来50篇研究环保组织绩效提升的学术文章，做一个systematic review, 这就不是empirical study。再比如，构建一个新的心理学解释work motivation的理论模型，这也不是empirical study。但如果你构建完和描述完模型，又去收集data 来验证你的模型完不完备，这就是empirical study了。

可以说之所以现在这么多人（至少在美国）都在做empirical study而不是conceptual study，一是因为empirical study更容易发表，二是因为conceptual study的难度往往更大。我们国内社科类的学术文章empirical study还非常少，很多研究结论不得不说都是作者的一厢情愿，都是在畅想美丽新世界，比如公共管理的研究只是提出政策意见，并没有提供任何依据。这应该说是在喊口号而不是在做科学研究。讲深一点，这跟我们东方文化自古以来的思维方式和哲学传统有关，我们常常把 “fact" 和 ”opinion"混为一谈，而西方思维更注重事实依据，提供证据，给出论证逻辑。(这个话题说起来很大但其实特别有意思，感兴趣的同学可以找一本美国人写的对比中西方思维的书来看：The Geography of Thought: How Asians and Westerners Think Differently...and Why by Richard Nisbett. 我在读书会分享过这本书大家很感兴趣，哪天写个书评分享给大家。 )

那美国社科类研究有没有受欢迎的、highly cited的conceptual research呢？当然有，而且很多，只是没有empirical research那么常见罢了。而且好的conceptual research是极为让人敬仰的，因为conceptual research真的很难啊，你想啊，就跟那些大哲学家构建自己哲学系统的观点是一样的，你的框架要非常完整、清晰、有创新性还要严谨周密，你立了这个靶子，以后有的是学者会使用empirical research来验证你的理论框架靠谱不靠谱，所以这真不是一般人能干的活。（我忽然想到还需要聊另一个话题，在社科类领域什么是theory以及为什么它重要，mark。。。）

好，那么今日重点来了(敲黑板~)，假如我决定做empirical research, 我要如何collect data呢？总结起来答案如下图：

如果你觉得secondary data 就可以回答你的研究问题，那就是说你所需要的data已经被别人收集好了，你省事了，你想办法把它弄到手然后按照你的需要clean和transform data 就可以 (请注意是"transform"，不是maneuver! ）。比如，achival data, 像是我们研究公共管理的经常可以使用政府之前大规模收集的数据，公开发布的人口调查和抽样调查，很多研究机构和非盈利组织自己收集和公开供使用的数据，还有许多政府机构会每年或隔年给自己的员工发问卷，了解公务员的需求和工作状态。这些数据设计和收集的时候可能不是为了research的目的，至少不是以你的research为目的，但是它恰好能够为你所用，帮助你解答你的研究问题，这岂不是好？secondary data正是因为不是为了你的研究问题专门设计的，所以经常会有许多局限性，比如我们并不知道当时这些数据收集的时候那些收集的人靠不靠谱有没有弄错数据，有的时候有的dataset会提供data collection和sampling过程详细的描述，而许多dataset 并没有。还有，如果使用的secondary data是定量的，还需要找到一个叫codebook的东西，因为data variable在数据库里经常是使用缩写的，只有当时收集和清理数据的人知道那些所写具体是指代什么变量，codebook就是为variable解密的，告诉你当时具体问的是什么问题，有没有经过transform, 如何得到的这些数据。

正是由于secondary data具有这些局限性，如果你想使用secondary data，一定要确保它的来源很靠谱，一般在美国有一些比较著名和权威的公开数据，比如GSS (General Social Survey), NES (American National Election Studies)，以及许多其他每几年一公布的国家或地区统计数据。这些都是相对来说公认可信度较高的数据来源，top journal能够接受的seondary data。大多数时候如果想用secondary data 发一篇好文章，往往一个数据库还不够，需要combine several datasets, 最后才能找到你需要的数据，这非常常见。

另一方面，如果你找不到secondary data或者决定要自己收集primary data，那么恭喜你，你要准备花心血了。然而自己收数据的成果也往往非常rewarding, 过程也是非常有意思，你可能还会有很多没想到的惊喜，比如认识了一些很有趣或者很厉害的人，见识了一些很好玩或者很难得一见的事情。你要准备好花时间好好设计一下研究流程，用哪种方法收数据合适，好好想想为什么其他方法不行，然后做好literature review看其他人都是怎么收集数据和问了哪些问题，一步一步把自己的问题描述清楚，有时候还需要一个pilot study来试验一下你的问卷效果怎么样，调整之后再最后再发给所有受访者。

记得我读博士第二年的时候我的一个美国同学有一天忽然问我会不会自己收集博士论文的数据，我说我还没想好呢，需要的话就自己收呗。他说他刚去问了老师们，如果自己收数据的话读博士的时间相对来说需要add at least one year. 也就是说，如果你能找到现有数据，你很可能可以早毕业一到两年。同学们啊，你们想象一下收集数据的过程该有多费劲吧。

Collect primary data的最主要方式有这么几种：访谈(interview)，问卷(survey)，实地观察(observation)，其中最最常见的是survey, 其次是interview，再次是observation, 很多时候是mixed method, 既有访谈又有问卷还是用了observation。interview 和observation常常耗时耗力，适合exploratory study 和研究初期以摸底为目的使用；survey相对较为容易但是需要研究话题的领域已经 pretty well built, 你要问的问题大部分可以用选择题或者定量问题来实现。这其中还涉及到一个重要问题就是response rate, 发survey 的response rate往往最低，你发出去1000个问卷，返回来30个。尤其是online survey，发到邮箱的问卷我们常常直接忽视，所以response rate 低可以想见。mail survey和 print out survey稍微好一点，也好的有限。我有时候直接在mail box 里收到一封某个公司寄来的用户问卷调查，里面还放着两美元现金，意思是你看我都这么信任和感谢你了，先把钱给你哪怕我知道这可能有去无回，你就帮我填一下问卷吧。这就是为了提高response rate 而添加的incentives, 总体来说效果还是很好的，大概利用了大多数人受人钱财就得为人做事的心理。（然而我填这种问卷的话也有一种被裹挟了的感觉。。）

如果使用问卷（survey) 或者访谈（interview), 常使用的方法如下图：self-administered survey (个人问卷）， group administered survey (集体问卷），mailed out survey (邮寄问卷）， web survey (网络问卷）；以及interview之下可以分为 face to face interview （面对面访谈），telephone interview (电话访谈），focus group (集体式访谈）。

如果能发集体问卷你将是非常幸福的，那就说明你的研究对象可以被集中到一起，你看着他们把问卷填完再返还给你。比如我们每学期学生上完一门课会给老师打分，你要是在课堂统一让学生做这份评估这就是group administed survey. 实际情况是，往往你没有那么多机会把想研究的人都弄到一起。比如前年我们有个项目想研究国内高校如何制定老师的绩效评估系统，想访谈几个高校所有学院的院长，这种情况下想把几个学校的几十个院长都弄到一起非常困难，可以考虑的是在某个学校的院长们统一开会的时候去发问卷，然而这又需要组织这次会议的人愿意支持你发问卷的想法，否则凭什么你说发问卷就去发了。但是反过来想一想，如果你真的能把各位受访人集中起来发问卷，你的response rate 会大大提高，而且你就不需要一个一个的敲门打电话发邮件求他们完成你的问卷了, 所以group administered survey如果可能的话应该首先考虑。

做访谈的时候如果距离不远我都会首选 face to face interview, 见面的时候做访谈你所能收集到的信息是很丰富的，你能从受访者的表情动作等多个维度去观察和理解研究问题，也更能让受访者感觉到你的重视而尽量给出详尽的回答。然而很多时候直接去受访人所在地是件很费时间精力的事情，尤其是当你有50个以上的受访人的时候。你要是没有个3个人以上的助研团队你就只能考虑电话访谈了，phone interview虽然是退而求其次的办法可是确实省时省力。

最节约成本的还是survey, 填问卷，我连问题都不用问，全写在纸上，你自己填就好。但问题是这种办法不适合开放式问题（open ended question)。比如我想了解在奥运村生活一个月的体验，我如果在survey 里问“请描述你在北京奥运村生活的体验”，很可能得到的结果也就是受访者的两三句话，因为写起来费劲嘛，受访者没有意愿多写。但要是访谈呢，可能受访人会跟你讲很多，信息极为丰富，除了讲自己的经历还会讲他知道的别人的经历，甚至可能会跟你讲他以前在别的国家奥运村的体验等等，使你收集到的data非常rich。当然这要看你到底需要多丰富的信息，并不是说信息越丰富就一定越好。定性研究一般是追求rich data的，定量不是。

另外online survey现在用的很多，美国这边常用的online survey software 有Qualitrics 和Survey Monkey, 我自己用Qualtrics比较多，很好上手，数据收集上来之后data cleaning的过程也很容易。

攻克论文写作系列之7：Data Collection--你以为"数据"就只是"数据"吗？

猜你喜欢