毕设之路00

毕设内容:舆情监测。

浪浪荡荡了一个月,也该开始毕设了。最近一直在看论文,研究怎么开始,万事开头难,就是不知道从哪下手开始,一直不开始,一直不会做。

首先还是分析了一下题目本身明显的需求,第一步肯定是先进行爬虫。因为做这个系统在量级上肯定使用原来的一些数据库存储,读写速度肯定跟不上,但是目前打算先用一小部分数据进行一个小实验,看看自己想的路子是否行得通吧。因为涉及爬虫的网站不止一个,所以目前打算先走两个网站,每个网站布局不同,所以需要多线程并发处理。目前想到的也只是这些,爬取出来了需要去躁,清洗数据,拿到我想要的一部分。这是主要的,我想要的一部分。

之后会对这些数据进行碎片化处理,关键字以及分类聚类先往后放一放。所以本周打算做的事情是这些。因为涉及的算法之前接触的可能不多,这也不是之前简单地爬虫,这一周会尽量推磨研究一下,截止本周日查看数据效果如何。

这是我的毕设的第一步,加油!!!(好心酸啊!!!)

猜你喜欢

转载自www.cnblogs.com/mm20/p/11305519.html