SAS学习——通过DATA步读取外部文本文件中的数据1

1、基本形式如下:

data 数据集名称;
     infile 数据文件位置;
     input 变量列表;
run;

data语句指定数据集名称;

infile语句指定原始数据的位置和名称。原始数据文件可以是在filename语句中定义的文件引用形式或操作系统下的文件路径。

input语句用于指定SAS读取数据的方式。

2、SAS三种基本输入方式

  • 列表输入

用于读取原始数据记录中每个字段由至少一个分隔符隔开,并且数据值中不包含该分隔符的原始数据。

注意:

① 默认分隔符为空格,分隔符可以通过infile语句的选项dlm=“指定分隔符”来设置。连续的分隔符会当成一个分隔符处理。

②列表输入不能用于原始数据包含字段之间分隔符的情况

③使用列表输入时,字符变量默认长度为8个字节。当输入数据长度超过默认长度时,读入PDV的数据会被截断。

如何解决上面的问题呢?

针对①②,通过infile语句的选项dsd,将默认的分隔符设置为逗号,如果数据值是由引号引起来的,可以将数据值中的分隔符当成是数据值的一部分读入,字符值中的引号在读入PDV时会被删除。如果有两个连续的逗号,将被当做缺失值。

针对③,可以通过在input语句前使用length语句指定该变量的长度来解决。


示例数据(存储在'd:\sas\data'的customer_dsd.txt文件中):

C001,,"14 Bridge St. San Francisco, CA"

C002,Emily Cooker,"42 Rue Marston"

C003,,"52 Rue Marston Paris"

示例代码:

filename extfiles 'd:\sas\data';
data saslib.customer;
     length Name $20 Address $40;
     infile extfiles(customer_dsd) dsd;
     input Customer_ID $ Name $ Address $
run;
proc print data=saslib.customer noobs;
run;
  • 按列输入

当原始数据记录中的数据值在每条记录中占据相同列时,可用按列输入方式。读入数据值由制定的列号确定,不需指定变量长度,可以以任何顺序读入列,还可跳过一些列。


示例数据(存储在'd:\sas\data'的customer.txt文件中):

C001                        14 Bridge St. San Francisco,CA 

C002  Emily Cooker  42 Rue Marston 

C003                        52 Rue Marston Paris 

示例代码:

filename extfiles 'd:\sas\data';
data saslib.customer;
     infile extfiles(customer) ;
     input Customer_ID $ 1-4 Name $ 7-20 Address $ 22-51;
run;
proc print data=saslib.customer noobs;
run;
  • 格式化输入

可以读取特殊格式的数字数据,如二进制数据、日期时间或包含货币符号的数据。


示例数据(存储'D:\Program Files(x86)\SASData'的mixinput.txt文件中):

p001 SAS Base Programing 22Oct2013 

p002 SAS Base                    01JAN2013 

示例代码:

filename extfiles 'D:\Program Files (x86)\SASData';
libname saslib 'D:\Program Files (x86)\SASData';
data saslib.mixedinput;
    infile extfiles(mixedinput.txt) ;
	input course_id $ 1-4
	      course_name $ 6-24
	      +1 date date9.;
run;

其中用到了相对列控制符号+1,表示将列控制指针后移一位。

@是绝对列控制符号,可以直接将列指针移到所指位置。




猜你喜欢

转载自blog.csdn.net/csdn950212/article/details/80747805