JAVA爬虫网站内容保存指定文件 - 代码天地

JAVA爬虫网站内容保存指定文件

其他 2021-03-26 08:08:44 阅读次数: 0

摘要:

    该内容为Java学习爬虫网站内容demo文件,将指定的内容抓取保存到指定的文件内。

package reptileproject.reptileproject;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class CrawlerBase {
    
    
	/**
     * jsoup方式 获取虎扑新闻列表页
     * @param url 虎扑新闻列表页url
     */
    public void jsoupList(String url){
    
    
    	// 创建获取指定的标签集合
    	Elements elements = null;
    	// 创建文件流
    	PrintWriter printWriter = null;
        try {
    
    
        	// 获取URL的HTML内容
            Document document = Jsoup.connect(url).get();
            // 根据class标签获取html内容
            Elements div = document.getElementsByClass("fixed_content");
            // 获取指定的标签内容
            elements = div.select("ul > li > div.list_con > div.title > h2 > a");
            // 创建文件并获取文件流
            printWriter = new PrintWriter(new OutputStreamWriter(new FileOutputStream("D:\\爬虫文件.csv"), "utf-8"));
            // 文件添加bom格式
            printWriter.write(new String(new byte[]{
    
    (byte) 0xEF, (byte) 0xBB, (byte) 0xBF}));
            
        } catch (IOException e) {
    
    
            e.printStackTrace();
        }
        // 遍历内容
        for (Element element:elements){
    
    
            // 获取详情页链接
            String d_url = element.attr("href");
            // 获取标题
            String title = element.ownText();

            System.out.println("详情页链接："+d_url+" ,详情页标题："+title);
            // 详情链接写入文件内容
			printWriter.println(d_url);
			// 标题写入文件内容
            printWriter.println(title);
        }
        // 显示关闭数据流，避免数据丢失
        printWriter.close();
    }
}

注释详细,更好的让读者理解代码。

猜你喜欢

转载自blog.csdn.net/qq_19765727/article/details/102500572

JAVA爬虫网站内容保存指定文件

java使用代理ip爬取网站内容

使用Google、百度等搜索引擎在指定网站内搜索指定内容

网站内容怎么优化

网页爬虫小记：两种方式的爬取网站内容

爬虫：模拟浏览器对网站内容进行爬取

PHP简单爬虫&HTML DOM解析器&抓取网站内容

Qt学习笔记——爬虫，利用cookie信息绕过登录爬取http协议网站内容

爬虫获取一个网站内所有子页面的内容

python爬取网站内容

屏蔽wget下载网站内容

网站内容热点排序算法

网站内容如何变的更好？

收藏的一些网站内容

zinsearch实现网站内容搜索

JavaScript轻松抓取网站内容

apache使用.htaccess文件实现屏蔽wget下载网站内容

10个基于Java的CMS网站内容管理系统

网站开发与网站内容管理

Python将print输出内容保存到指定文件中

网站内部优化教程之网站内容怎么更新？

Java 从指定URL下载文件并保存到指定目录

python 爬虫之爬取网站信息并保存到文件

JS 复制网站内容时自动加上网址

网站内容质量低会影响SEO效果

谷尼GoonieFilter网站内容敏感词过滤系统

网站内容禁止复制解决办法

eyoucmsPHP企业网站内容管理系统

SEO小贴士：网站内容营销，你如何理解！

网站内容建设五大方案

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)