（该系列文章大部分内容来源于MIT课程笔记，加入了个人的理解、原笔记中没有的细节和其他的需要理解的内容，公开课地址：https://www.bilibili.com/video/BV14E411J7n2?p=1）

管道

在之前的课程中，其实我们已经接触到了一些数据整理的基本技术。可以这么说，每当您使用管道运算符的时候，其实就是在进行某种形式的数据整理。

例如这样一条命令 journalctl | grep -i intel，它会找到所有包含intel(区分大小写)的系统日志。您可能并不认为是数据整理，但是它确实将某种形式的数据（全部系统日志）转换成了另外一种形式的数据（仅包含intel的日志）。大多数情况下，数据整理需要您能够明确哪些工具可以被用来达成特定数据整理的目的，并且明白如何组合使用这些工具。

既然是学习数据整理，那有两样东西自然是必不可少的：用来整理的数据以及相关的应用场景。日志处理通常是一个比较典型的使用场景，因为我们经常需要在日志中查找某些信息，这种情况下通读日志是不现实的。现在，让我们研究一下系统日志，看看哪些用户曾经尝试过登录我们的服务器（ssh是通过命令行远程访问计算机的方法）：

ssh myserver journalctl

内容太多了。现在让我们把涉及 sshd 的信息过滤出来：

ssh myserver journalctl | grep sshd

注意，这里我们使用管道将一个远程服务器上的文件传递给本机的 grep 程序！此时我们打印出的内容，仍然比我们需要的要多得多，读起来也非常费劲。我们来改进一下：

ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' | less

多出来的引号是什么作用呢？我们的日志是一个非常大的文件，把这么大的文件流直接传输到我们本地的电脑上再进行过滤是对流量的一种浪费。因此我们采取另外一种方式，将所需要的操作传递给远程服务器的shell执行，这样在远端机器上过滤文本内容，然后再将结果传输到本机。 less 为我们创建来一个文件分页器，使我们可以通过翻页的方式浏览较长的文本。为了进一步节省流量，我们甚至可以将当前过滤出的日志保存到文件中，这样后续就不需要再次通过网络访问该文件了：

$ ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' > ssh.log
$ less ssh.log

过滤结果中仍然包含不少没用的数据。我们有很多办法可以删除这些无用的数据，但是让我们先研究一下 sed 这个非常强大的工具。

sed 是一个基于文本编辑器ed构建的”流编辑器” 。在 sed 中，您基本上是利用一些简短的命令来修改文件，而不是直接操作文件的内容（尽管您也可以选择这样做）。相关的命令行非常多，但是最常用的是 s，即替换命令，例如我们可以这样写：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed 's/.*Disconnected from //'

上面这段命令中，我们使用了一段简单的正则表达式。s 命令的语法如下：s/REGEX/SUBSTITUTION/, 其中 REGEX 部分是我们需要使用的正则表达式，而 SUBSTITUTION 是用于替换匹配结果的文本。

正则表达式

正则表达式通常以（尽管并不总是）/开始和结束。大多数的 ASCII 字符都表示它们本来的含义，但是有一些字符确实具有表示匹配行为的“特殊”含义。不同字符所表示的含义，根据正则表达式的实现方式不同，常见的模式有：

. 除空格之外的”任意单个字符”
\d 代表任意一个数字
\D 代表任意一个非数字
\s 一个空格
\S 任意一个非空格
\w 等价于 [A-Za-z0-9_] 表示英文文本中的一个字符
\W 非\w
* 匹配前面字符零次或多次
+ 匹配前面字符一次或多次
\b 匹配单词和非单词之间的内容，用于匹配整个单词
[abc] 匹配 a, b 和 c 中的任意一个
[^abc] 不是a/b/c的其他任意一个
(RX1|RX2) 任何能够匹配RX1 或 RX2的结果
{m} m个重复
{m,n} m-n个重复
^ 行首
$ 行尾（这两个用于匹配完整的一行）

sed 的正则表达式有些时候是比较奇怪的，它需要你在这些模式前添加\才能使其具有特殊含义。或者，您也可以添加-E选项来支持这些匹配。
在这里插入图片描述

举例：

lilhoe@LilHoedeMacBook-Pro ~ % echo "aba"|sed 's/[ab]//' # 仅匹配一次
ba
lilhoe@LilHoedeMacBook-Pro ~ % echo "abac"|sed 's/[ab]//g' # 最大匹配
c
lilhoe@LilHoedeMacBook-Pro ~ % echo "abcaba"|sed 's/(ab)*//g' # 不成功 因为sed比较古老刻板，下两种方法修改
abcaba
lilhoe@LilHoedeMacBook-Pro ~ % echo "abcaba"|sed -E 's/(ab)*//g'
ca
lilhoe@LilHoedeMacBook-Pro ~ % echo "abcaba"|sed "s/\(ab\)*//g"  # 需要添加转义字符
ca

回过头我们再看/.*Disconnected from /，我们会发现这个正则表达式可以匹配任何以若干任意字符开头，并接着包含”Disconnected from “的字符串。这也正式我们所希望的。但是请注意，正则表达式并不容易写对。如果有人将 “Disconnected from” 作为自己的用户名会怎样呢？

Jan 17 03:13:00 thesquareplanet.com sshd[2631]: Disconnected from invalid user Disconnected from 46.97.239.16 port 55920 [preauth]

正则表达式会如何匹配？* 和 + 在默认情况下是贪婪模式，也就是说，它们会尽可能多的匹配文本（详情查看正则表达式贪婪匹配和最小匹配)。因此对上述字符串的匹配结果如下：

46.97.239.16 port 55920 [preauth]

这可不上我们想要的结果。对于某些正则表达式的实现来说，您可以给* 或 + 增加一个? 后缀使其变成非贪婪模式，但是很可惜 sed 并不支持该后缀。不过，我们可以切换到 perl 的命令行模式，该模式支持编写这样的正则表达式：

perl -pe 's/.*?Disconnected from //'

结果如下：

LilHoedeMacBook-Pro:~ lilhoe$ echo "Jan 17 03:13:00 thesquareplanet.com sshd[2631]: Disconnected from invalid user Disconnected from 46.97.239.16 port 55920 [preauth]"|perl -pe 's/.*?Disconnected from //'
invalid user Disconnected from 46.97.239.16 port 55920 [preauth]

让我们回到 sed 命令并使用它完成后续的任务，毕竟对于这一类任务，sed是最常见的工具。sed 还可以非常方便的做一些事情，例如打印匹配后的内容，一次调用中进行多次替换搜索等。但是这些内容我们并不会在此进行介绍。sed 本身是一个非常全能的工具，但是在具体功能上往往能找到更好的工具作为替代品。

我们还需要去掉用户名后面的后缀，应该如何操作呢？想要匹配用户名后面的文本，尤其是当这里的用户名可以包含空格时，这个问题变得非常棘手！这里我们需要做的是匹配一整行：

sed -E 's/.*Disconnected from (invalid |authenticating )?user .* [^ ]+ port [0-9]+( \[preauth\])?$//'

问题还没有完全解决，日志的内容全部被替换成了空字符串，整个日志的内容因此都被删除了。我们实际上希望能够将用户名保留下来。对此，我们可以使用“捕获组（capture groups）”来完成。被圆括号内的正则表达式匹配到的文本，都会被存入一系列以编号区分的捕获组中。捕获组的内容可以在替换字符串时使用（有些正则表达式的引擎甚至支持替换表达式本身），例如\1、 \2、\3等等，因此可以使用如下命令：

sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'

我们可以借助正则表达式在线调试工具regex debugger 来理解这段表达式。OK，开始的部分和以前是一样的，随后，我们匹配两种类型的“user”（在日志中基于两种前缀区分）。再然后我们匹配属于用户名的所有字符。接着，再匹配任意一个单词（[^ ]+ 会匹配任意非空且不包含空格的序列）。紧接着后面匹配单“port”和它后面的一串数字，以及可能存在的后缀[preauth]，最后再匹配行尾。

想必您已经意识到了，为了完成某种匹配，我们最终可能会写出非常复杂的正则表达式。例如，这里有一篇关于如何匹配电子邮箱地址的文章e-mail address，匹配电子邮箱可一点也不简单。网络上还有很多关于如何匹配电子邮箱地址的讨论。人们还为其编写了测试用例及测试矩阵。您甚至可以编写一个用于判断一个数是否为质数的正则表达式。

通配符

通配符在Linux用于匹配扩展文件路径，是由shell处理的, 它只会出现在命令参数里。当shell在“参数”中遇到了通配符时，shell会将其当作路径或文件名去在磁盘上搜寻可能的匹配：若符合要求的匹配存在，则进行代换(路径扩展)；否则就将该通配符作为一个普通字符传递给“命令”，然后再由命令进行处理。

通配符具有正则表达式的大部分匹配方式，还加入了以下方式：

通配符	意义
[characters]	匹配任意一个属于字符集中的字符
[!characters]	匹配任意一个不是字符集中的字符
[[:class:]]	匹配任意一个属于指定字符类中的字符

普遍使用的字符类：

字符类	意义
[:alnum:]	匹配任意一个字母或数字
[:alpha:]	匹配任意一个字母
[:digit:]	匹配任意一个数字
[:lower:]	匹配任意一个小写字母
[:upper:]	匹配任意一个大写字母

例如：显示/etc目录下，所有以.d结尾的文件或目录：

~ ls -d /etc/*.d
/etc/emond.d     /etc/newsyslog.d /etc/paths.d     /etc/sudoers.d
/etc/manpaths.d  /etc/pam.d       /etc/php-fpm.d

显示/etc目录下，所有.conf结尾，且以m,n,r,p开头的文件或目录：

~ ls -d /etc/[mnrp]*.conf
/etc/man.conf               /etc/ntp_opendirectory.conf
/etc/newsyslog.conf         /etc/pf.conf
/etc/nfs.conf               /etc/resolv.conf
/etc/notify.conf            /etc/rtadvd.conf
/etc/ntp.conf

数据排序(sort)去重(uniq)

现在我们有如下表达式：

sh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'

sed 还可以做很多各种各样有趣的事情，例如文本注入：(使用i 命令)，打印特定的行 (使用 p命令)，基于索引选择特定行等等。详情请见man sed!

现在，我们已经得到了一个包含用户名的列表，列表中的用户都曾经尝试过登陆我们的系统。但这还不够，让我们过滤出那些最常出现的用户：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c

sort 会对其输入数据进行排序。uniq -c 会把连续出现的行折叠为一行并使用出现次数作为前缀。uniq 程序能完成任务，其输入必须是排好序的数据，这是因为 uniq 只会删除相邻的重复行：

lilhoe@LilHoedeMacBook-Pro:s000->/Users/lilhoe/Downloads (0) 
> cat test.txt
a
d
f
g
s
a
s
d
f
lilhoe@LilHoedeMacBook-Pro:s000->/Users/lilhoe/Downloads (0) 
> uniq test.txt   # 没有完成去重，因为输入不是顺序的
a
d
f
g
s
a
s
d
f
lilhoe@LilHoedeMacBook-Pro:s000->/Users/lilhoe/Downloads (0) 
> sort test.txt|uniq       
a
d
f
g
s

uniq的常用选项：

选项	说明
-c	输出所有的重复行，并且每行开头显示重复的次数。
-d	只输出重复行，而不是特有的文本行。
-f n	忽略每行开头的 n 个字段，字段之间由空格分隔，正如 sort 程序中的空格分隔符;然而，不同于 sort 程序，uniq 没有选项来设置备用的字段分隔符。
-i	在比较文本行的时候忽略大小写。
-s n	跳过(忽略)每行开头的 n 个字符。
-u	只输出独有的文本行。这是默认的。

举例：

> sort test.txt|uniq -c
   2 a
   2 d
   2 f
   1 g
   2 s

接着，我们希望按照出现次数排序，过滤出最常登陆的用户（还可以使用|wc -1打印出所有条目的总数)：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10

sort -n 会按照数字顺序对输入进行排序（默认情况下是按照字典序排序 -k1,1 则表示“仅基于以空格分割的第一列进行排序”。,n 部分表示“仅排序到第n个部分”，默认情况是到行尾。

sort还给我们提供了依靠多个key排列的方法，例如以下文件，按系统名称为主、版本号为辅排序：

SUSE 10.2 12/07/2006
Fedora 10 11/25/2008
SUSE 11.04 06/19/2008
Ubuntu 8.04 04/24/2008
Fedora 8 11/08/2007
SUSE 10.3 10/04/2007
…

[me@linuxbox ~]$ sort --key=1,1 --key=2n distros.txt
Fedora    5     03/20/2006
Fedora    6     10/24/2006
Fedora    7     05/31/2007
...

虽然为了清晰，我们使用了选项的长格式，但是-k 1,1 -k 2n格式是等价的。因为我们想对第一个字段排序，我们指定了 1,1，意味着“始于并且结束于第一个字段”。在第二个参数中，我们指定了 2n，意味着第二个字段是排序的键值，并且按照数值排序。一个选项字母可能被包含在一个键值说明符的末尾，其用来指定排序的种类。这些选项字母和 sort 程序的全局选项一样:b(忽略开头的空格)，n(数值排序)，r(逆向排序)。

在计算机中，日期通常设置为 YYYY-MM-DD 格式，这样使按时间顺序排序变得容易，我们列表中第三个字段包含的日期格式不利于排序。幸运地是，sort 程序提供了一种方式。这个 key 选项允许在字段中指定偏移量，所以能在字段中定义键值。

[me@linuxbox ~]$ sort -k 3.7nbr -k 3.1nbr -k 3.4nbr distros.txt
Fedora   10   11/25/2008 
Ubuntu  8.10  10/30/2008 
SUSE    11.0  06/19/2008
...

通过指定-k 3.7 指示 sort 程序使用一个排序键值，其始于第三个字段中的第七个字符，对应于年的开头。同样地，我们指定 -k 3.1和-k 3.4来分离日期中的月和日。我们也添加了n和r 选项来实现一个逆向的数值排序。这个b选项用来删除日期字段中开头的空格(行与行之间的空格数迥异，因此会影响 sort 程序的输出结果)。

sort还提供了一个-t选项来自定义分隔符，当分隔符不是空格时可以自行指定。

如果我们希望得到登陆次数最少的用户，我们可以使用 head 来代替tail。或者使用sort -r来进行倒序排序。

但我们只想获取用户名，而且不要一行一个地显示：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10
 | awk '{print $2}' | paste -sd,

我们可以利用 paste命令来合并行(-s)，并指定一个分隔符进行分割 (-d)，那awk的作用又是什么呢？

awk——另外一种编辑器

awk 其实是一种编程语言，是grep的一个替代品只不过它碰巧非常善于处理文本。

首先， {print $2} 的作用是什么？ awk 程序接受一个模式串（可选），以及一个代码块，指定当模式匹配时应该做何种操作。默认当模式串即匹配所有行（上面命令中当用法）。在代码块中，$0 表示正行的内容，$1 到 $n 为一行中的 n 个区域，区域的分割基于 awk 的域分隔符（默认是空格，可以通过-F来修改）。在这个例子中，我们的代码意思是：对于每一行文本，打印其第二个部分，也就是用户名。

让我们统计一下所有以c 开头，以 e 结尾，并且仅尝试过一次登陆的用户。

 | awk '$1 == 1 && $2 ~ /^c[^ ]*e$/ { print $2 }' | wc -l

首先，注意这次我们为 awk指定了一个匹配模式串（也就是{…}前面的那部分内容）。该匹配要求文本的第一部分需要等于1（这部分刚好是uniq -c得到的计数值），然后其第二部分必须满足给定的一个正则表达式。代码快中的内容则表示打印用户名。然后我们使用 wc -l 统计输出结果的行数。

不过，既然 awk 是一种编程语言，那么则可以这样：

BEGIN {
    
     rows = 0 }
$1 == 1 && $2 ~ /^c[^ ]*e$/ {
    
     rows += $1 }
END {
    
     print rows }

BEGIN 也是一种模式，它会匹配输入的开头（ END 则匹配结尾）。然后，对每一行第一个部分进行累加，最后将结果输出。事实上，我们完全可以抛弃 grep 和 sed ，因为 awk 就可以解决所有问题。

数据分析

想做数学计算也是可以的！bc for Berkeley Caculator 可以用于任意精度的数值就算。例如：

(-l可以省略，但是有些系统会莫名其妙不支持）

lilhoe@LilHoedeMacBook-Pro ~ % echo "1+2" | bc -l 
3

您可以将每行的数字加起来：

 | paste -sd+ | bc -l

下面这种更加复杂的表达式也可以：

echo "2*($(data | paste -sd+))" | bc -l

您可以通过多种方式获取统计数据。如果已经安装了R语言，st是个不错的选择：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | awk '{print $1}' | R --slave -e 'x <- scan(file="stdin", quiet=TRUE); summary(x)'

R语言非常适合被用来进行数据分析和绘制图表（python的第三方库matplotlib也可以），summary 可以打印统计结果。我们通过输入的信息计算出一个矩阵，然后R语言就可以得到我们想要的统计数据。

如果您希望绘制一些简单的图表， gnuplot 可以帮助到您：

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed -E 's/.*Disconnected from (invalid |authenticating )?user (.*) [^ ]+ port [0-9]+( \[preauth\])?$/\2/'
 | sort | uniq -c
 | sort -nk1,1 | tail -n10
 | gnuplot -p -e 'set boxwidth 0.5; plot "-" using 1:xtic(2) with boxes'

利用数据整理来确定参数

有时候您要利用数据整理技术从一长串列表里找出你所需要安装或移除的东西。我们之前讨论的相关技术配合 xargs 即可实现（xargs可以将输入的行作为参数传入）：

rustup toolchain list | grep nightly | grep -vE "nightly-x86" | sed 's/-x86.*//' | xargs rustup toolchain uninstall

整理二进制数据

虽然到目前为止我们的讨论都是基于文本数据，但对于二进制文件其实同样有用。例如我们可以用 ffmpeg 从相机中捕获一张图片，将其转换成灰度图后通过SSH将压缩后的文件发送到远端服务器，并在那里解压、存档并显示。

ffmpeg -loglevel panic -i /dev/video0 -frames 1 -f image2 -
 | convert - -colorspace gray -
 | gzip
 | ssh mymachine 'gzip -d | tee copy.jpg | env DISPLAY=:0 feh -'

课后练习

统计words文件 (/usr/share/dict/words) 中包含至少三个a 且不以’s 结尾的单词个数。这些单词中，出现频率前三的末尾两个字母是什么？ sed的 y命令，或者 tr 程序也许可以帮你解决大小写的问题。共存在多少种词尾两字母组合？还有一个很有挑战性的问题：哪个组合从未出现过？
进行原地替换听上去很有诱惑力，例如： sed s/REGEX/SUBSTITUTION/ input.txt > input.txt。但是这并不是一个明知的做法，为什么呢？还是说只有 sed是这样的? 查看 man sed 来完成这个问题
找出您最近十次开机的开机时间平均数、中位数和最长时间。在Linux上需要用到 journalctl ，而在 macOS 上使用 log show。找到每次起到开始和结束时的时间戳。在Linux上类似这样操作：

Logs begin at ...

和

systemd[577]: Startup finished in ...

在 macOS 上, 查找:

=== system boot:

和

Previous shutdown cause: 5

查看之前三次重启启动信息中不同的部分 (参见 journalctl的-b 选项)。将这一任务分为几个步骤，首先获取之前三次启动的启动日志，也许获取启动日志的命令就有合适的选项可以帮助您提取前三次启动的日志，亦或者您可以使用sed ‘0,/STRING/d’ 来删除 STRING匹配到的字符串前面的全部内容。然后，过滤掉每次都不相同的部分，例如时间戳。下一步，重复记录输入行并对其计数(可以使用uniq )。最后，删除所有出现过3次的内容（因为这些内容上三次启动日志中的重复部分）。
在网上找一个类似这个或者这个的数据集。或者从这里找一些。使用 curl 获取数据集并提取其中两列数据，如果您想要获取的是HTML数据，那么pup可能会更有帮助。对于JSON类型的数据，可以试试jq。请使用一条指令来找出其中一列的最大值和最小值，用另外一条指令计算两列之间差的总和。

参考：
https://missing-semester-cn.github.io/2020/data-wrangling/
https://blog.csdn.net/youmatterhsp/article/details/80528761
https://www.cnblogs.com/ysuwangqiang/p/11364173.html

[MIT公开课(计算机教育中缺失的一课)]4.数据整理

目录

管道