计算机专业开题报告案例77：基于Web的文本爬虫系统的设计与实现

需要源码可以滴滴我

一、选题意义

二、国内外研究现状

一、选题意义

随着互联网的飞速发展，大数据已经渗透到每个行业和业务功能领域，其价值也越来越显著。提取出有意义有价值的数据尤为重要。因此用于互联网信息采集的网络爬虫面临着巨大的机遇和挑战。目前国内外一些大型搜索引擎只给用户提供不可定制的搜索服务，单机网络爬虫又难当重任，已有的分布式网络爬虫虽然功能强、效率高，但普通用户难以理解和使用。

近些年来，伴随着互联网技术的不断发展，互联网数据信息的爆炸将我们带入了大数据时代。社会的各行各业都深受着大数据时代的影响，不断渗透到我们日常的工作、生活和学校当中，影响着社会的不断前进和发展。在大数据时代不断蓬勃发展的今天，人们通过搜索引擎获取数据是具有很大难度的，不但效率低下，而且准确率不高。网络数据爬虫技术是用来高效的获取整合散落在互联网各个角落数据的有效手段，能够为用户高效，准确的提供需求的数据信息。

本设计提出的基于python技术的电影数据采集系统的爬虫web可以高效、准确地获取我们所需要的数据资源。根据用户指定的主网及数据类型关键字，爬取我们所需要的数据，并且可以将获取到的数据进行清洗和分类，高效的数据获取、数据的实时性、数据的准确性对用户来说都是十分具有实际意义的。

二、国内外研究现状

2.1 国外研究现状

目前，国外设计出了很多的网络爬虫系统，主要由Ubi Crawler，Mercator，Nutch和GoogIeCrawler率和准确率。这些网络爬虫系统都具有自己独特的一面，在数据采集方面都有着很高的效下面，将对以上几种网络爬虫系统做简单的介绍。

谷歌的搜索引擎网络爬虫使用的是分布式的网络爬虫系统，采用多台服务器并行访问网页，抓取数据，系统由多台并行的爬虫主机和一台中央主机组成。中央主机首先访问请求的Url，然后将请求得到的网页分发给下面并行的主机，来对网页数据进行定位和抓取。各个爬虫主机在完成网页数据的抓取之后，将抓取到的数据做成定义的规格，发送给索引进程使用。索引进程负责管理存储在数据库的网页Url和己经抓取到的网页数据，Url解释器进程负责解析网页Url。解释器进程是将刚刚抓取到的网页Url保存到本地，并且发送给中央主机，由中央主机读取。谷歌搜索引擎中的网络爬虫系统采用这种循环的方式，将中央主机和多台爬虫主机配合使用，不断的从互联网抓取需求的数据。

2.2 国内研究现状

在国内，同样存在很多的研究单位和高校学者对分布式网络爬虫系统作了大量的研究，很多优良的网络爬虫系统也随之产生。

2019年，李文龙详细研究了ocker集群的编排管理工具，基于ocker集群的分布式爬虫系统，掌握编排管理工具的工作原理以及调度机制和管理并将它应用在分布式网络爬虫系统。随之，一个适合Docker集群的分布式网络爬虫模块被设计和实现出来，开发人员将这些系统模块根据需求组合起来，最终形成了高效便捷的分布式爬虫系统。这个基于Docker集群的分布式爬虫系统采用Kubernetes集群编排管理工具，使用此编排管理工具来对系统的各个功能模块进行统一的部署和管理，以最终运行在。ocker集群上为目标。

通过国内外关于网络爬虫系统及Scrapy框架的研究，我们不难看出，研究主要针对某一特定数据类型或特定网站，并没有对不同数据类型，不同网页布局类型进行研究，而我们设计的基于Scrapy框架的数据采集系统，是一个系统工程，在这个系统工程中，每个环节都是紧紧相扣，在一定程度上可以满足对不同网页类型和不同数据类型的采集和管理。

三、可行性分析

从技术可行性分析：系统采用python主流框架Django开发的B/S结构，同样借助于非常轻便的html语言与sqlite3非关联数据库结合进行开发，以此最为开发环境，将会在一定程度上减少开发难度。

从经济可行性分析：python开发环境是一个免费的开放平台，可以从网上免费获取，使用个人笔记本电脑即可完成开发，不需要外购服务器和硬件设备，开发成本较低，故在经济上可行。

四、研究的主要问题

本设计研究内容是基于Python爬虫的web文本爬取的网络设计，利用Python的Django的框架搭建爬虫网络，爬取豆瓣网页中的top250网页上相关信息。对爬取保存下来的数据文件进行清洗和预处理；将清洗好的数据导入数据库；进行需求分析，对要实现的数据可视化效果进行分析，创建相应的数据库并导入数据；将清洗后的数据保存到sqlite3数据库中，后端利用django框架，用Echarts实现数据可视化。

论文设计和实现的基于Django爬虫框架的数据采集系统，用户把需要爬取的主网进行一个任务树形式分配，一次配置，多次使用。而且对于相似的数据类型可以进行归类，后期的数据查询以及数据调用都是十分便捷的。从代码形式的爬虫工程转化成为一个Web页面形式，这样对于用户来说，难度大大降低，用户不需要去理解系统是如何运作，网页是如何解析，只需要按照必要的步骤去构建自己所需要的数据采集任务。

五、工作重点

（1）研究并分析大数据时代数据的特点，基于企业和个人对于数据的需求为背景，阐述开发基于以此为指导Django框架的数据采集系统必要性。并且研究数据采集系统的历史发展进程为基于Django框架的数据采集系统的设计与实现奠定了实践基础；

（2）对基于Django框架的数据采集系统设计与实现所使用的主要技术进行说明；

（3）分析该数据采集系统的业务需求和功能需求；

（4）确定系统设计原则，对系统总体框架搭建、功能模块划分和数据库设计进行规划和阐述；

（5）设计与实现系统的功能模块。

六、工作难点

本设计的难点在于将数据爬取下来之后需要对数据进行有效的清洗，在数据库中需要针对数据的有效格式进行数据的存贮，然后采用Echarts可视化组件进行数据的展示。

七、主要参考文献

[1] 赵蔷. 基于Python爬虫的旅游网站数据分析与可视化[J]. 电子设计工程, 2022(016):030.

[2] 杨孟姣, 杜棋东. 基于Python爬虫网站数据分析系统设计与实现[J]. 计算机时代, 2022(11):4.

[3] 孟宝灿. Python网络爬虫应用探讨[J]. 广播电视信息, 2022, 29(3):108-110.

[4] 洪丽华, 黄琼慧. 基于Python爬虫技术的研究[J]. 价值工程, 2022, 41(34):3.

[5] 刘杰. 基于Python语言的爬虫技术分析[J]. 移动信息, 2022(005):000.

[6] 王国华. 基于python的豆瓣电影网络爬虫设计与分析.

[7] 冯艳茹. 基于Python的网络爬虫系统的设计与实现[J]. 电脑与信息技术, 2021.

[8] 高祖彦. 基于Python的网络爬虫的设计与实现[J]. 2020.

[9] 巫宇超, 鲍正德, 唐娅雯. 基于Python的网络爬虫[J]. 计算机系统网络和电信, 2019.

[10] 杜超. 浅析基于python的网络爬虫技术[J]. 2019.

[11] 孙建言, 马雨欣, 武文杰. 基于Python的网络爬虫系统[J]. 电脑知识与技术：学术版, 2019, 15(9Z):3.

[12] 望江龙, 王晓红. 基于Python爬虫技术实现[J]. 电脑编程技巧与维护, 2019(9):4.

[13] 蒙晓庆. 中国电影票房影响因素分析及预测[D]. 天津财经大学, 2018.

[14] 徐勤亚, 蔡继鹏, 王星. 基于Python的影片数据分析[J]. 信息技术与信息化, 2019(8):3.