用Liunx统计文件行数,切分、对id进行排序,去重(wc,head,sort,uniq)!

如下我们遇到一个文件2G以上

文本编辑相互甩锅:

此时内心很崩溃,但是我们先看一下文件一共有多少行。

统计文件的行数可以用以下命令:wc -l  文件名

wc -l  lesson_20201205.log

1200多万行数据。

然后用 head -n 文件名 > 新文件

$ head -1000000 lesson_20201205.log > lesson_20201205_100.log

 

然后得到 一个163M的100万行数据

接下来我们把log中的用户Id取出来,发现很多重复的。

此时我们肯定不能用把这些id复制到Excel中,然后选择去重。

我们肯定要用程序员的方法来解决。

我们用 cat 文件名 | sort |uniq >去重后的文件名

$ cat lesson_id_100.log | sort |uniq >lesson_id_100_uniq.log

然后我们就得到了去重后切以升序保存的文件。

完事!

猜你喜欢

转载自blog.csdn.net/zhangyupeng0528/article/details/111071501