linux高级文本处理命令—cut，sed，awk

 
  1 cut 
  命令

 
  cut命令可以从一个文本文件或者文本流中提取文本列。 
 

   cut 
  语法 
 

   [root@www ~]# cut -d' 
  分隔字符' -f fields     ## 
  用于有特定分隔字符 
 

   [root@www ~]# cut -c 
  字符区间            ## 
  用于排列整齐的信息 
 

 
  选项与参数： 
 

   -d 
  ：后面接分隔字符。与 -f 
  一起使用； 
 

   -f 
  ：依据 -d 
  的分隔字符将一段信息分割成为数段，用 -f 
  取出第几段的意思； 
 

   -c 
  ：以字符 (characters) 
  的单位取出固定字符区间； 
 

   PATH 
  变量如下 
 

 
  [root@www ~]# echo $PATH 
 

 
   /bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games 
 

 
  # 1 | 2       | 3   | 4       | 5            | 6            | 7 
 

 
  将 PATH 
  变量取出，找出第五个路径。

 
  #echo $PATH | cut -d ':' -f 5 
 

 
  /usr/local/bin 
 

 
  将 PATH 
  变量取出，找出第三和第五个路径。

 
  #echo $PATH | cut -d ':' -f 3,5 
 

 
  /sbin:/usr/local/bin 
 

 
  将 PATH 
  变量取出，找出第三到最后一个路径。

 
  echo $PATH | cut -d ':' -f 3- 
 

 
  /sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games 
 

 
  将 PATH 
  变量取出，找出第一到第三个路径。

 
  #echo $PATH | cut -d ':' -f 1-3 
 

 
  /bin:/usr/bin:/sbin: 
 

 
  将 PATH 
  变量取出，找出第一到第三，还有第五个路径。

 
  #echo $PATH | cut -d ':' -f 1-3,5 
 

 
  /bin:/usr/bin:/sbin:/usr/local/bin 
 

 
  实用例子: 
  只显示/etc/passwd 
  的用户和shell 
 

 
  #cat /etc/passwd | cut -d ':' -f 1,7 
 

 
  root:/bin/bash 
 

 
  daemon:/bin/sh 
 

 
  bin:/bin/sh 
 

 
  2 sed 
  命令

 
  1/  
  删除： 
  d 
  命令 
 

   $ sed '2d' example                ----- 
  删除example 
  文件的第二行。 
 

   $ sed '2,$d' example              ----- 
  删除example 
  文件的第二行到末尾所有行。 
 

   $ sed '$d' example                 ----- 
  删除example 
  文件的最后一行。 
 

   $ sed '/test/'d example             ----- 
  删除example 
  文件所有包含test 
  的行。 
 

 
  2/  
  替换： 
  s 
  命令 
 

 
  $ sed 's/test/mytest/g' example                                 
 

 
  ##   
  在整行范围内把 
  test 
  替换为 
  mytest 
  。如果没有 
  g 
  标记，则只有每行第一个匹配的 
  test 
  被替换成 
  mytest 
  。 
 

 
  $ sed -n 's/^test/mytest/p' example                          
 

 
  ##  (-n) 
  选项和 
  p 
  标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的 
  test 
  被替换成 
  mytest 
  ，就打印它。 
 

 
  $ sed 's/^192.168.0.1/&localhost/' example           
 

 
  ##  & 
  符号表示追加一个串到找到的串后。所有以 
  192.168.0.1 
  开头的行都会被替换成它自已加 
   localhost 
  ，变成 
  192.168.0.1localhost 
  。 
 

 
  $ sed -n 's/\(love\)able/\1rs/p' example 
 

 
  ##  love 
  被标记为 
  1 
  ，所有 
  loveable 
  会被替换成 
  lovers 
  ，而且替换的行会被打印出来。 
 

 
  $ sed 's#10#100#g' example 
 

 
  ##   
  不论什么字符，紧跟着 
  s 
  命令的都被认为是新的分隔符，所以，“ 
  # 
  ”在这里是分隔符，代替了默认的“ 
  / 
  ”分隔符。表示把所有 
  10 
  替换成 
  100 
  。 
 

 
  选定行的范围：逗号 
 

 
  $ sed -n '/test/,/check/p' example 
 

 
  ##  
  所有在模板 
  test 
  和 
  check 
  所确定的范围内的行都被打印。 
 

 
  $ sed -n '5,/^test/p' example 
 

 
  ##  
  打印从第五行开始到第一个包含以 
  test 
  开始的行之间的所有行。 
 

 
  $ sed '/test/,/check/s/$/sed test/' example 
 

 
  ##  
  对于模板 
  test 
  和 
  west 
  之间的行，每行的末尾用字符串 
  sed test 
  替换。 
 

 
  多点编辑： 
  e 
  命令 
 

 
  $ sed -e '1,5d' -e 's/test/check/' example 
 

 
  ##  (-e) 
  选项允许在同一行里执行多条命令。如例子所示，第一条命令删除 
  1 
  至 
  5 
  行，第二条命令用 
  check 
  替换 
  test 
  。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。 
 

 
  $ sed --expression='s/test/check/' --expression='/love/d' example 
 

 
  ##  
  一个比 
  -e 
  更好的命令是 
  --expression 
  。它能给 
  sed 
  表达式赋值。 
 

 
  3/  
  从文件读入： 
  r 
  命令 
 

 
  $ sed '/test/r file' example 
 

 
  -----file 
  里的内容被读进来，显示在与 
  test 
  匹配的行后面，如果匹配多行，则 
  file 
  的内容将显示在所有匹配行的下面。 
 

 
  4/  
  写入文件： 
  w 
  命令 
 

 
  $ sed -n '/test/w file' example 
 

   ----- 
  在example 
  中所有包含test 
  的行都被写入file 
  里。 
 

 
  5/  
  追加命令： 
  a 
  命令 
 

 
  $ sed '/^test/a\\--->this is a example' example    
 

 
  ##  '--->this is a example' 
  被追加到以 
  test 
  开头的行后面， 
  sed 
  要求命令 
  a 
  后面有一个反斜杠。 
 

 
  6/  
  插入： 
  i 
  命令 
 

   $ sed '/test/i\\some thing new -------------------------' example 
 

 
  如果test 
  被匹配，则把反斜杠后面的文本插入到匹配行的前面。

 
  7/  
  下一个： 
  n 
  命令 
 

   $ sed '/test/{ n; s/aa/bb/; }' example 
 

   ----- 
  如果test 
  被匹配，则移动到匹配行的下一行，替换这一行的aa 
  ，变为bb 
  ，并打印该行，然后继续。 
 

 
  8/  
  退出： 
  q 
  命令 
 

   $ sed '10q' example 
 

   ----- 
  打印完第10 
  行后，退出sed 
  。 
 

 
  3 awk 
  命令

   awk 
  是一个强大的文本分析工具，相对于grep 
  的查找，sed 
  的编辑，awk 
  在其对数据分析并生成报告时，显得尤为强大。简单来说awk 
  就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 
 

 
  假设last -n 5 
  的输出如下

 
  [root@www ~]# last -n 5        ## 
  仅取出前五行

 
  root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in 
 

 
  root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41) 
 

 
  root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48) 
 

 
  dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00) 
 

 
  root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01) 
 

 
  如果只是显示最近登录的5 
  个帐号

 
  #last -n 5 | awk  '{print $1}' 
 

 
  root 
 

 
  root 
 

 
  root 
 

 
  dmtsai 
 

 
  root 
 

   awk 
  工作流程是这样的：读入有'\n' 
  换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0 
  则表示所有域,$1 
  表示第一个域,$n 
  表示第n 
  个域。默认域分隔符是" 
  空白键" 
  或 "[tab] 
  键", 
  所以$1 
  表示登录用户，$3 
  表示登录用户ip, 
  以此类推。 
 

 
  如果只是显示/etc/passwd 
  的账户

 
  #cat /etc/passwd |awk  -F ':'  '{print $1}'  
 

 
  root 
 

 
  daemon 
 

bin

sys

 
  这种是awk+action 
  的示例，每行都会执行action{print $1} 
  。 
 

   -F 
  指定域分隔符为':' 
 

 
  如果只是显示/etc/passwd 
  的账户和账户对应的shell, 
  而账户与shell 
  之间以tab 
  键分割 
 

 
  #cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}' 
 

   root    /bin/bash 
 

   daemon  /bin/sh 
 

   bin     /bin/sh 
 

   sys     /bin/sh 
 

 
  如果只是显示/etc/passwd 
  的账户和账户对应的shell, 
  而账户与shell 
  之间以逗号分割, 
  而且在所有行添加列名name,shell, 
  在最后一行添加"blue,/bin/nosh" 
  。 
 

 
  cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}' 
 

 
  name,shell 
 

 
  root,/bin/bash 
 

 
  daemon,/bin/sh 
 

 
  bin,/bin/sh 
 

 
  sys,/bin/sh 
 

 
  .... 
 

 
  blue,/bin/nosh 
 

   awk 
  工作流程是这样的：先执行BEGING 
  ，然后读取文件，读入有/n 
  换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0 
  则表示所有域,$1 
  表示第一个域,$n 
  表示第n 
  个域, 
  随后开始执行模式所对应的动作action 
  。接着开始读入第二条记录······直到所有的记录都读完，最后执行END 
  操作。 
 

 
  搜索/etc/passwd 
  有root 
  关键字的所有行 
 

 
  #awk  -F:  '/root/'  /etc/passwd 
 

   root:x:0:0:root:/root:/bin/bash 
 

 
  这种是pattern 
  的使用示例，匹配了pattern( 
  这里是root) 
  的行才会执行action( 
  没有指定action 
  ，默认输出每行的内容) 
  。 
 

 
  搜索支持正则，例如找root 
  开头的: awk -F:  '/^root/'  /etc/passwd

 
  搜索/etc/passwd 
  有root 
  关键字的所有行，并显示对应的shell 
 

 
  # awk  -F':'  '/root/{print $7}'  /etc/passwd              
 

   /bin/bash 
 

     
  这里指定了action{print $7} 
 

 
  统计/etc/passwd: 
  文件名，每行的行号，每行的列数，对应的完整行内容:

 
  #awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}'  
  /etc/passwd

 
  filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash 
 

 
  filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh 
 

 
  filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh 
 

 
  filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh 
 

 
  使用printf 
  替代print, 
  可以让代码更加简洁，易读 
 

    awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd 
 

linux高级文本处理命令—cut，sed，awk

猜你喜欢