前言

很惨，队友在配置hive的hive-site.xml 时少打了一个"property",导致前一个小时一点进展都没有。但最后我们还是克服了困难，没有让自己太难看。很累。

内容

0x01：环境准备

配置hosts文件，关闭防火墙，开启集群环境(zookeeper,hadoop,spark)
这一部分没有什么好讲的，比赛的时候前两个都是直接给你的，懂得开启命令就可以，多练练就行了

0x02：数据仓库的搭建

mysql,hive的安装
注意事项：slave1中是bin/hive --service metastore,启动后在master上直接bin/hive 即可开启hive模式进行数据分析

0x03：sqoop的搭建

软件的下载原装；添加 MySQL 驱动；配置关于Hadoop/hive 的工作路径等相关参数；

0x04：数据分析

数据的下载和转码；
将数据上传至指定的分布式文件系统（hdfs）路径；
hive 中数据库的操作；
hive 中数据表的操作

PS：这部分其实很复杂，向搞hive的队友致敬，就是那个少打property的那个0.0

0x05：数据挖掘和数据可视化

我把他俩放到一块了，这一块考察Apriori算法，主要就是关联规则中置信度和支持度的计算；结果数据类型的指定（int、float 等）

0x06：数据爬取及分析

我主要是干数据爬取的，我稍后会把相关的爬虫代码整理一下，重新放出来。我爱编程hhh

0x07：总结

大数据里真正的重点应该是数据的分析，其他东西都只是为数据分析提供服务的。个人建议：学大数据可以先从环境配置开始，实操为主，那些环境的原理是什么可以先不去了解，这真的不是什么问题。hive都不会开就有点过分了。
虽然本人只是负责爬取部分，但是比赛时也做了不少队友的活，有几点东西要注意一下：
1：很多东西放在本地源里，需要自己去下载。
2：hive的操作最好一次成功，不然很麻烦，要重新删除后再建表。
3：手速要快，看看前三的大佬，一个个手速贼快。蛤蛤蛤
4：ssh自己手动连接，一定要快。
5：这次比赛全是手打，不仅要手快，还要保持正确率，再次向property队友致敬。
PS：数据分析和数据挖掘与可视化等我回去熟悉一下，再与大家好好聊聊。下一次征途即将开启。。。
PSS：我看了一下discuz论坛，和题目给的不太一样，不好按照题目要求去写爬虫，等下次找到一个好的实例再与大家分享。在这里说一下大概的思路：
============================================================
题目要求：TID，usr_name,point,title,内容，还有一个我忘了。
TID：找到帖子的a标签，里面有TID=xxx，正则一下就出来了
usr_name：找到其标签，然后隔一个i.text即可
point：积分其实在主界面也能找到，但是我记得当时在主界面的积分不好爬取，我就点击了作者名的链接，发现里面也有积分，而且还比较好爬取，那思路就很简单了：先爬取作者的那个超链接地址，然后循环去模拟访问收集到的超链接地址，去找积分所在的标签即可。
title：他和TID的标签是在一起的，TID用正则，他直接i.text就行了。
内容：题目所说的内容我结合说明书的理解是：帖子下的第一个回复。所以就和point一起做了，在访问子URL的时候顺便爬取到内容即可。反正python这么方便，函数返回几个值都可以。

YUK_103

发布了36 篇原创文章 · 获赞 29 · 访问量 3950

私信关注

对某大数据比赛的总结

前言

内容