举例说明 数据分析思维

前两天刷知乎的时候看到这样的问题

“为什么我国人才流失如此严重?”

题主的疑问来自于×××的数据:
举例说明 数据分析思维

2014年出国人数为46万,而回国人数仅为36.5万

两者相除,得出“归国率”仅为79% ,而2015年仅有78%

因此,题主得出结论:我国海外人才大量流失


随后,各路人马纷纷跳出来,开始一本正经地分析为什么中国人才流失这么严重。

问题是,这样的数据解读正确吗?

用同一年内的出国人数和归国人,计算出来的所谓“归国率”,真的有意义吗?

如果这个数据本身就没有意义,那么“分析”背后的“原因”,无疑是南辕北辙了。

——请先思考一分钟——

2015年归国的留学生,肯定在2014年甚至更早就出国了。

极少有学校会开设1月入学,12月毕业的Program。

所以,这里用同一年内的回国人数和出国人数相除,算出来的所谓“归国率”纯粹是瞎几把算。

一般国外本科是3-4年,美国的master是1.5-2年,英国及英联邦是1-1.5年,PhD一般要5年。

由于查不到不同项目人数的比例,因此保守估计平均出国年份为2年。
举例说明 数据分析思维

-

根据×××的数据,2015年回国是40.9万,往前推2年,2013年出国人数是41.4万。

2915年归国率 = 40.9/41.4 ≈ 99%,远高于所谓的“78%”。

同理,2014年的归国率是 91%,2013年甚至超过100%(可能是由于较多其他年份出国留学的学生在2013年集中回国,导致数据爆表)。

近几年的归国率均高达90%以上,因此“我国人才流失严重”显然是不成立了。

所以说,以后数据分析之前应该先动动脑子,不要总想着搞个大新闻批判一番。


这个问题是解决了,那么还能挖出什么别的东西呢?

还可以观测趋势。

整理了从1949-2015年,每一年的出国留学和归国人数。

加总后,得到归国人数总计218万,出国人数总计292万(不含2014和2015年),从而得出回国率75%。

为什么总体只有75%?这和我们计算的2013-2015年的归国率相差甚大。

首先做一个简单推测:早年的归国率低,因此整体归国率被拖了后腿

分别计算每年的归国率(篇幅原因,取1980年开始):
举例说明 数据分析思维
果然,从改革开放以来,大部分年份的归国率是非常低的,算术平均数仅为63%。

因此得出结论:近年来,越来越多的留学生选择回国

那么,还能不能挖掘出别的东西?

在分析过程中,我发现了一个有趣的现象,如果只看2000年以后的数据,2003-2008年出现了明显的洼地。
举例说明 数据分析思维
为了找出原因,特别是要规避计算方法带来的错误,我计算了出国和归国人数的逐年增长率(YoY Growth)。
举例说明 数据分析思维
数据表明,2000-2002年出现了一波出国的高潮,随后增长率迅速下降,甚至出现负增长,直到2008年以后才恢复到了20%+的增长率。

所以,2008年实际上是一个分水岭,08年之后,出国留学变得更加热门。

结合平时实际了解的出国人群的情况,我们可以做这样一个假设:2008年以前出国人群中,本科和博士比例更高,2008年以后则是硕士比例更高。

因此,2008年以前出国的学生,在国外停留的时间应该更长,我们不妨认为这个平均时间是3.5年,取整为4年。

重新计算归国率后:
举例说明 数据分析思维
结果,不仅2005-2007年的洼地没有改变,还在2002年出现了一波高峰。

因为这里已经排除了计算方法带来的错误,因此需要去探究背后的动因。

但想要真正透彻地探究其中的原因,只能通过大规模调研的方式询问当时的留学生,显然不太现实。


在这里先开一波脑洞大致推测下原因:

  • 2001年,中国发生了几件大事:申奥成功,WTO,APEC会议,因此鼓舞了一批留学生在2002年集中回国效力

  • 2004-2008年,国内舆论风波逐渐兴起,各路公知兴风作浪,在2008年到达顶峰,这几年的留学生更多选择在留在国外

  • 2008年,内有雪灾、地震、毒奶粉,外有分裂反华势力,中国在内交外困之下成功地举办奥运会,从此国内舆论形式逐渐反转;加之全球性的金融危机,导致海外的机会减少,大批留学生又选择回国发展。

如果这是一次正式的数据分析,我们可以利用调研结果进一步分析出留学生回国的驱动因素,进而预测未来几年的归国率。

综上,数据分析首先要保证数据和方法的准确性,然后大胆假设,小心求证。在不断地论证中,会逐渐挖掘出有价值的新信息。

除此以外,这些数据还可以做别的吗?

还可以匡算市场规模。

从2015年开始,每年出国留学的人数已经超过了50万。

算上出国留学有至少2-3年的准备期,那么留学产业每年的基础人群高达150万

由此可以大致分别估算留学考试辅导、留学咨询/中介、国际学校的市场规模

同理,每年归国的留学生超过40万,这些留学生都需要在国内求职。

算上1-2年的准备期,由此可以大致估算求职辅导(针对留学生)的市场规模


以上这些仅仅是最简单最粗浅的分析。

在实际咨询项目中,一般会首先通过多方渠道验证数据的准确性,然后搭建模型进行深入地分析,当然同样少不了反复验证的程序,结合定性分析,得出最终的结论。

猜你喜欢

转载自blog.51cto.com/13767783/2175458