爬虫项目(三)之java文章

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_15153911/article/details/85773385

爬虫项目(三)之java文章

private void setList(ModelAndView mav, String mavObject, String filePath) {
		List<String> list = _fileUtils.getFiles2(filePath);
		Collections.sort(list);
		List<LoveqVO> loveqVOList = new ArrayList<>();
		for (String s : list) {
			String name = s.substring(s.lastIndexOf("\\") + 1);
			String url = s.substring(s.indexOf("\\"));
			loveqVOList.add(new LoveqVO(name, url));
		}
		mav.addObject(mavObject, loveqVOList);
	}

需求:定时获取某网站的文章到本地以txt格式文件保存,页面展示txt里的内容。这样不用调用数据库,title作为txt的文件名称,文章内容,包含css等样式存储txt里面。这样就可以快速爬取各大网站的文章,机械硬盘一般为1T,大容量储存。每次获取前,可将txt文件全部删除再存储。
在这里插入图片描述

 //第一步:清空文件夹
 filesClean(filePath); 
 //第二步:下载网页
        Yss8Article page = _downloadPageUtils.downloadPage(url);
        //第三步:解析网页
        _processPageUtils.processzhiyinPage(page, title, pat);
        //第四步,存储网页
        _storePageUtils.storePageInfo(page, filePath);
        //第五步:解析完毕
        logger.info("url:" + url + "解析完毕!");
        //休息5秒,再爬取内容
        sleep(5000);

5大步实现爬虫项目,需要代码学习研究,请点击 http://47.98.237.162/detail/1/189

猜你喜欢

转载自blog.csdn.net/sinat_15153911/article/details/85773385
今日推荐