一、命令解析:
Part1:cp etc/hadoop/*.xml input #将文件夹下后缀为xml的文件复制到input
etc:ETCetera #目录存放着各种系统配置文件, 类似于windows下的system
Part2:share
存放数据文档和案例
Part3: grep
grep 是 Global Regular Expression Print 的缩写,它搜索指定文件的内容,匹配指定的模式,默认情况下输出匹配内容所在的行,只支持匹配而不能替换匹配到的内容。
示例:匹配ip地址中的inet
Part4:dfs[a-z.]+
正则表达式:.匹配处理'\n'外的任何单个字符,+匹配前面的表达式一次或多次。
二、 Grep:
1. 创建input文件夹:
2. 执行demo代码:
3. 查看output,成功匹配到字符串dfsadmin
4. 删除output文件夹,进行测试
5. 将文件中的字符更换为以下内容:
6. 运行程序:
7. 按照正则表达式规则匹配到两个字符串
三、 WordCount:
1. 步骤:
2. 结果示例: