对某大数据比赛的总结

前言

很惨,队友在配置hive的hive-site.xml 时少打了一个"property",导致前一个小时一点进展都没有。但最后我们还是克服了困难,没有让自己太难看。很累。

内容

0x01:环境准备

配置hosts文件,关闭防火墙,开启集群环境(zookeeper,hadoop,spark)
这一部分没有什么好讲的,比赛的时候前两个都是直接给你的,懂得开启命令就可以,多练练就行了

0x02:数据仓库的搭建

mysql,hive的安装
注意事项:slave1中是bin/hive --service metastore,启动后在master上直接bin/hive 即可开启hive模式进行数据分析

0x03:sqoop的搭建

软件的下载原装; 添加 MySQL 驱动; 配置关于Hadoop/hive 的工作路径等相关参数;

0x04:数据分析

  1. 数据的下载和转码;
  2. 将数据上传至指定的分布式文件系统(hdfs)路径;
  3. hive 中数据库的操作;
  4. hive 中数据表的操作

PS:这部分其实很复杂,向搞hive的队友致敬,就是那个少打property的那个0.0

0x05:数据挖掘和数据可视化

我把他俩放到一块了,这一块考察Apriori算法,主要就是关联规则中置信度和支持度的计算;结果数据类型的指定(int、float 等)

0x06:数据爬取及分析

我主要是干数据爬取的,我稍后会把相关的爬虫代码整理一下,重新放出来。我爱编程hhh

0x07:总结

大数据里真正的重点应该是数据的分析,其他东西都只是为数据分析提供服务的。个人建议:学大数据可以先从环境配置开始,实操为主,那些环境的原理是什么可以先不去了解,这真的不是什么问题。hive都不会开就有点过分了。
虽然本人只是负责爬取部分,但是比赛时也做了不少队友的活,有几点东西要注意一下:
1:很多东西放在本地源里,需要自己去下载。
2:hive的操作最好一次成功,不然很麻烦,要重新删除后再建表。
3:手速要快,看看前三的大佬,一个个手速贼快。蛤蛤蛤
4:ssh自己手动连接,一定要快。
5:这次比赛全是手打,不仅要手快,还要保持正确率,再次向property队友致敬。
PS:数据分析和数据挖掘与可视化等我回去熟悉一下,再与大家好好聊聊。下一次征途即将开启。。。
PSS:我看了一下discuz论坛,和题目给的不太一样,不好按照题目要求去写爬虫,等下次找到一个好的实例再与大家分享。在这里说一下大概的思路:
============================================================
题目要求:TID,usr_name,point,title,内容,还有一个我忘了。
TID:找到帖子的a标签,里面有TID=xxx,正则一下就出来了
usr_name:找到其标签,然后隔一个i.text即可
point:积分其实在主界面也能找到,但是我记得当时在主界面的积分不好爬取,我就点击了作者名的链接,发现里面也有积分,而且还比较好爬取,那思路就很简单了:先爬取作者的那个超链接地址,然后循环去模拟访问收集到的超链接地址,去找积分所在的标签即可。
title:他和TID的标签是在一起的,TID用正则,他直接i.text就行了。
内容:题目所说的内容我结合说明书的理解是:帖子下的第一个回复。所以就和point一起做了,在访问子URL的时候顺便爬取到内容即可。反正python这么方便,函数返回几个值都可以。

发布了36 篇原创文章 · 获赞 29 · 访问量 3950

猜你喜欢

转载自blog.csdn.net/YUK_103/article/details/102788329