简单的文本处理

版权声明:如有转载,请标明出处 https://blog.csdn.net/qq_25774883/article/details/82286972

本文介绍tr(注意不是tar),coljoinpaste命令。实际上是管道操作命令的延续,所以我们依然将结合管道来熟悉这些命令的使用。

tr命令

tr命令可以用来删除一段文本信息中的某些文字,或者将其进行转换。

使用方式:

tr [option] ... SET1 [SET2]

常用的选项有:

选项 说明
-d 删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配
-s 去除set1指定的在输入文本中连续并重复的字符

#删除hello world中所有的’o’,’l’,’d’
echo “hello world” | tr -d ‘old’

#将"hello"中的ll,去重为一个l
echo "hello" | tr -s 'l'    

#将输入文本,全部转换为大写或小写输出
echo 'input some text heRe' | tr '[:lower:]' '[:upper:]'

#上面的'[:lower:]'''[:upper:]',也可以简单的写作'[a-z]''[A-Z]',当然反过来将大写变小写也是可以的

echo 'input some text heRE' |tr '[:upper:]''[:lower:]'

col命令

col命令可以将Tab换成对等数量的空格键,或反转这个操作

格式: cal [option]

常用的选项:

选项 说明
-x 将Tab转换为空格
-h 将空格转换为Tab(默认选项)

#查看/etc/protocols中的不可见字符,可以看到很多^I,这其实就是Tab转义成可见字符的符号
cat -A /etc/protocols

#使用col -x将/etc/protocols中的Tab转换为空格,然后再使用cat查看,会发现^I不见了
cat /etc/protocols | col -x | cat -A 

join命令

该命令就是用于将两个文件中包含相同内容的那一行合并在一起。在数据库中也有该命令,作用基本相同。

使用方式: join [option] ... file1 file2

常用的选项:

选项 说明
-t 指定分隔符,默认为空格
-i 忽略大小的差异
-1 指定第一个文件要用哪个字段来对比,默认对比第一个字段
-2 指定第二个文件要用哪个字段来对比,默认对比第一个字段
#创建两个文件
echo '1 hello' > file1
echo '2 hello' > file2

join file1 file2

# 将/etc/passwd与/etc/shadow两个文件合并,指定以':'作为分隔符
sudo join -t':' /etc/passwd /etc/shadow

# 将/etc/passwd与/etc/group两个文件合并,指定以':'作为分隔符, 分别比对第4和第3个字段
sudo join -t':' -1 4 /etc/passwd -2 3 /etc/group

paste命令

paste命令有join命令类似,不过它是在不对比数据的情况下,简单地将多个文件合并在一起,以Tab隔开。

使用格式:paste [option] file ...

常用的选项:

选项 说明
-d 指定合并的分隔符,默认是Tab
-s 不合并到一行,每个文件为一行

echo hello > file1
echo shiyanlou > file2
echo www.shiyanlou.com > file3
paste -d ‘:’ file1 file2 file3
paste -s file1 file2 file3

问题

Windows/dos 与 Linux/UNIX 文本文件一些特殊字符不一致

如断行符 Windows 为 CR+LF(\r\n),Linux/UNIX 为 LF(\n)。使用cat -A 文本 可以看到文本中包含的不可见特殊字符。Linux 的\n表现出来就是一个 W i n d o w s / d o s M ,可以直接使用dos2unix和unix2dos工具在两种格式之间进行转换,使用file命令可以查看文件的具体类型。

不过现在希望你在不使用上述两个转换工具的情况下,使用前面学过的命令手动完成 dos 文本格式到 UNIX 文本格式的转换。

tr -d '^M'

https://blog.csdn.net/fan_hai_ping/article/details/8352087

猜你喜欢

转载自blog.csdn.net/qq_25774883/article/details/82286972