0 引言

awk是一个强大的文本分析工具，把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理。

awk工作原理：

  #awk -F : '{print $1,$3}' /etc/passwd

  (1)  awk使用一行作为输入，并将这一行赋给内部变量$0,每一行也可称为一个记录，以换行符结束

 （2）然后行被：（默认是空格或制表符）分解成字段（或域），每个字段存储在已编号的变量中，从$1开始，最多可达100个字段

 （3）awk如何知道用空格分隔字段的呢？因为内部有个变量FS来确定字段分隔符。初始时FS赋值为空格

 （4）awk打印字段时候，将以设置的方法使用print函数打印，awk在打印字段间加上空格，因为$1,$3之间有一个逗号，逗号比较特殊，它映射为另一个内部变量，成为输出 字段分隔符OFS，OFS默认为空格。（所以输出不加指明的话，默认都是以空格输出）。如果需要自己指定输出分隔符，需要“”（必须双引号）引起来。
 
 （5）awk输出之后，将从文件中获取另一行，并将其存储在$0中，覆盖原来的内容，然后将新的字符串分割成字段进行处理，该过程将持续到所有行处理完毕。

1 awk的基本用法

awk [选项参数] ‘pattern1{action1} pattern2{action2}...’ filename
pattern：表示AWK在数据中查找的内容，就是匹配模式
action：在找到匹配内容时所执行的一系列命令。注意是放在{}中的

2 选项参数说明

选项参数	功能
-F	指定输入文件拆分的分隔符
-V	赋值一个用户定义变量（定义一个变量）

3 案例操作

数据准备：

cat /etc/passwd >/home/centos/dan_test/password

（1）搜索passwd文件以root关键字开头的所有行，并输出该行的第7列。

[root@bigdata3 dan_test]# grep '^root' password | awk -F : '{print $7}'

[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7}' password

（2）搜索passwd文件以root关键字开头的所有行，并输出该行的第1列和第7列，中间以“，”号分割。

[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7","$1}' password

（3）只显示/etc/passwd的第一列和第七列，以逗号分割，且在所有行前面添加列名user，shell在最后一行添加"dandan ge，/ni/zuishuai"。

[root@bigdata3 dan_test]# awk -F : 'BEGIN{print "user,shell"} {print $1","$7} END{print "dandan ge，/ni/zuishuai"}' password

注意：BEGIN ,END理解为两个关键字

（4）将password文件中的用户id增加数值1并输出

cat password

用户id为第三列

[root@bigdata3 dan_test]# awk -v i=1 -F : '{print $3 + i}' password

使用-v定义变量，注意引用时候该定义的变量前面无$符号。

4 awk的内置变量

变量	说明
FILENAME	文件名
NR	已读的记录数（行号）
NF	浏览记录的域的个数（切割后列的个数）

案例操作：

（1）统计password文件名，每行的行号，每行的列数

[root@bigdata3 dan_test]# awk -F: '{print "filename:" FILENAME ", linenumber:" NR ",columns:" NF}' password

（2）切割IP

查看数据的格式：

[root@bigdata3 dan_test]# ifconfig eth0

  [root@bigdata3 dan_test]# ifconfig eth0 | sed -n '2p' | awk '{print $2}'

注意：awk默认是空格切割，因此这里没有指定切割的分隔符

sed -n '2p':表示取第二行数据

（3）查询sed.txt中空行所在的行号

[root@bigdata3 dan_test]# awk '/^$/{print NR}' sed.txt

（4）有文件chengji.txt内容如下:

张三 40

李四 50

王五 60

使用Linux命令计算第二列的和并输出

[root@bigdata3 dan_test]# cat chengji.txt | awk '{sum=$2+sum} END{print sum}'

（5）输出分割符以逗号分割

[root@bigdata3 dan_test]# cat password | awk -F : '{print $1","$3}'

默认：

[root@bigdata3 dan_test]# cat password | awk -F : '{print $1,$3}'

截取整数

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'

xargs -n1的理解通过下面的例子理解：

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n2

[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n3

总结：xargs的-n参数

（1）-n num 后面加次数，表示命令在执行的时候一次用的argument的个数，默认是用所有的。其实就是表示一次输入（传递）的参数个数。
（2）-n参数可以将多行变一行，可以将单行变多行，有点类似hive中的udaf及udtf函数。
（3）awk '{print +$0}'只显示字符串最前面的数字。

[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'

注意与int()函数的区别：

[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print int($0)}'

果子学长@小眼睛

发布了11 篇原创文章 · 获赞 165 · 访问量 5372

私信关注

awk基本用法及案例详解