awk基本用法及案例详解

0 引言

   awk是一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。

 awk工作原理:

  #awk -F : '{print $1,$3}' /etc/passwd

  (1)  awk使用一行作为输入,并将这一行赋给内部变量$0,每一行也可称为一个记录,以换行符结束

 (2)然后行被:(默认是空格或制表符)分解成字段(或域),每个字段存储在已编号的变量中,从$1开始,最多可达100个字段

 (3)awk如何知道用空格分隔字段的呢?因为内部有个变量FS来确定字段分隔符。初始时FS赋值为空格

 (4)awk打印字段时候,将以设置的方法使用print函数打印,awk在打印字段间加上空格,因为$1,$3之间有一个逗号,逗号比较特殊,它映射为另一个内部变量,成为输出 字段分隔符OFS,OFS默认为空格。(所以输出不加指明的话,默认都是以空格输出)。如果需要自己指定输出分隔符,需要“”(必须双引号)引起来。
 
 (5)awk输出之后,将从文件中获取另一行,并将其存储在$0中,覆盖原来的内容,然后将新的字符串分割成字段进行处理,该过程将持续到所有行处理完毕。

1 awk的基本用法

  •     awk [选项参数] ‘pattern1{action1}  pattern2{action2}...’ filename
  •     pattern:表示AWK在数据中查找的内容,就是匹配模式
  •    action:在找到匹配内容时所执行的一系列命令。注意是放在{}中的

2  选项参数说明

选项参数

功能

-F

指定输入文件拆分的分隔符

-V

赋值一个用户定义变量(定义一个变量)

3 案例操作

    数据准备:

cat /etc/passwd >/home/centos/dan_test/password

(1)搜索passwd文件以root关键字开头的所有行,并输出该行的第7列。

[root@bigdata3 dan_test]# grep '^root' password | awk -F : '{print $7}'

[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7}' password

(2)搜索passwd文件以root关键字开头的所有行,并输出该行的第1列和第7列,中间以“,”号分割。

[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7","$1}' password

(3)只显示/etc/passwd的第一列和第七列,以逗号分割,且在所有行前面添加列名user,shell在最后一行添加"dandan ge,/ni/zuishuai"。

[root@bigdata3 dan_test]# awk -F : 'BEGIN{print "user,shell"} {print $1","$7} END{print "dandan ge,/ni/zuishuai"}' password

注意:BEGIN ,END理解为两个关键字

(4)将password文件中的用户id增加数值1并输出

   cat password

用户id为第三列

[root@bigdata3 dan_test]# awk -v i=1 -F : '{print $3 + i}' password

使用-v定义变量,注意引用时候该定义的变量前面无$符号。

4 awk的内置变量

变量 说明
FILENAME 文件名
NR 已读的记录数(行号)
NF 浏览记录的域的个数(切割后列的个数)

案例操作:

(1)统计password文件名,每行的行号,每行的列数

[root@bigdata3 dan_test]# awk -F: '{print "filename:" FILENAME ", linenumber:" NR ",columns:" NF}' password

(2)切割IP

查看数据的格式:

[root@bigdata3 dan_test]# ifconfig eth0

  [root@bigdata3 dan_test]# ifconfig eth0 | sed -n '2p' | awk '{print $2}'

注意:awk默认是空格切割,因此这里没有指定切割的分隔符

sed -n '2p':表示取第二行数据

(3)查询sed.txt中空行所在的行号

[root@bigdata3 dan_test]# awk '/^$/{print NR}' sed.txt

(4)有文件chengji.txt内容如下:

张三 40

李四 50

王五 60

使用Linux命令计算第二列的和并输出

[root@bigdata3 dan_test]# cat chengji.txt | awk '{sum=$2+sum} END{print sum}'

(5)输出分割符以逗号分割

[root@bigdata3 dan_test]# cat password | awk -F : '{print $1","$3}'

默认:

[root@bigdata3 dan_test]# cat password | awk -F : '{print $1,$3}'

截取整数

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'

xargs -n1的理解通过下面的例子理解:

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n2

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n3

总结:xargs的-n参数

  • (1)-n num 后面加次数,表示命令在执行的时候一次用的argument的个数,默认是用所有的。其实就是表示一次输入(传递)的参数个数。
  • (2)-n参数可以将多行变一行,可以将单行变多行,有点类似hive中的udaf及udtf函数。
  • (3)awk '{print +$0}'只显示字符串最前面的数字。
[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'
1.23

0

0

123

注意与int()函数的区别:

[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print int($0)}'
1

0

0

123
发布了11 篇原创文章 · 获赞 165 · 访问量 5372

猜你喜欢

转载自blog.csdn.net/godlovedaniel/article/details/104755897