如何用Stata完成(shui)一篇经济学论文(二):导入数据及中文乱码处理

导入数据

Stata可以通过直接敲代码来导入数据,不过代码太复杂,我也从来没记过,明明可以用点点点完成的事,为什么要自己写呢?(水)毕业论文中的数据一般来自图书馆数据库或者自己申请的问卷调查数据,通常是excel或csv格式,当然有些问卷数据直接是dta格式,那更好。

什么?excel和csv有什么区别?官方解释是,csv是用逗号隔开来储存。我觉得区别不是很大,除了你用excel打开csv再保存csv,会出现问题(具体出现了啥我也忘了,因为我早就不干这种傻事)。但csv能保存的数据量比excel多得多,对于我们写(水)论文的,这些也不重要。

  • 点击file-import-excel

  • 用browse去电脑里找要导入的文件,如果你excel的第一行是数据标签,记得选中“Import first row as variable names”。一般情况下其他的选项都不用管,这样数据就导进来啦。
    在这里插入图片描述
    csv文件同理可得,除了选中第一行为数据标签的选项变为“Use first row for vairables’ name”,如果第一行是数据标签,改为always就好。

数据的保存

数据的保存同样可以通过菜单栏实现,点击File-save as…-保存路径,建议保存成dta,也就是stata专用数据文件类型,下次可以直接打开用。如果想导出成excel格式,就file-export-Data to Excel spreadsheet。本处就不截图了,大家自己保存一下就好。

中文乱码处理

导入数据挺简单的,但笔者当时的问题是,每次导进去都会乱码!就是你数据中的中文字符,变成一些乱七八糟不能看的东西!

如图导入csv文件,数据标签中奇奇怪怪的字符本来是中文在这里插入图片描述
这个时候把“text encoding”换一换就可以了(一般是utf-8),但几个选项都可以试试,哪个显示出来的中文正确就用哪个。在这里插入图片描述
有时候四个选项都试过了仍然不行,那说不定你的中文字符是直接的中文编码。这个时候我们先随便使用“utf-8”导入,在命令窗口得到了导入的命令,比如我的是

import delimited F:\china_cities_20180102.csv, encoding(UTF-8)

clear数据后使用这串代码,不过把encoding里面换成gb18030或gbk

clear
import delimited F:\china_cities_20180102.csv, encoding(gb18030)

具体原因是stata使用的是unicode统一码,有时在excel里数据字符编译使用的是utf-8编码,所以导进stata会出现乱码。我就不一样了,我把数据导进python过了一遍之后,不知道咋就整成了中文编码,所以utf-8也没用。当时这些原理都不懂,为了中文乱码的问题折腾了好几天,最后发现只有这个方法有用,我也忘了是借鉴的还是我自己琢磨出来的,就写出来供大家参考,引用也就不写了。

P.S.因为这里的目的只是为了把数据正确导进去,没有详细介绍相关原理,想了解有关字符串和编码的更多问题,建议参考廖雪峰python教程

猜你喜欢

转载自blog.csdn.net/Hedy_mail/article/details/108254010
今日推荐