java获取网页主信息之三:html to tree（转） - 代码天地

java获取网页主信息之三:html to tree（转）

编程语言 2018-05-14 07:44:59 阅读次数: 2

1.所需文件

param.txt:存放需要提取信息的网页路径
TestPage:存放需要提取信息的网页
Out.txt:输出的网页内容

2.测试程序

package test;   
  
import java.io.*;   
import Source.*;   
  
//提取页面主要信息测试   
public class ETest{   
  
    public static void main(String args[])   
    {   
        //输出文件   
        String out = "out.txt";   
        File outfile = new File(out);   
        //建立html树   
        HTML2Tree h2t = new HTML2Tree();   
        String file = getFilename();   
        h2t.main(file);   
        HTree tree = h2t.getTree();   
        //允许标准差   
        double th = 0.79;   
        //选择主要信息块   
        ChooseBlock cb = new ChooseBlock(th);   
        //输出主要信息   
        String str = cb.getContent(tree);   
        if(str == null)   
        {   
            System.out.println("文件为空");   
            System.exit(1);   
        }   
        try  
        {   
            PrintWriter p = new PrintWriter(new BufferedWriter(new FileWriter(outfile)));   
            p.println(str);   
            p.close();   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
    }   
    //获取要提取的网页文件名   
    private static String getFilename()   
    {   
        String file = "";   
        try  
        {   
            File f = new File("param.txt");   
            BufferedReader fis = new BufferedReader(new FileReader(f));   
            String s;   
            while((s = fis.readLine()) != null)    
            if(!s.equalsIgnoreCase(""))   
            {   
                 file = s;   
                 break;   
            }   
        }   
        catch(IOException e)   
        {   
            System.out.println(e);   
            System.exit(1);   
        }   
        return file;   
    }   
}

猜你喜欢

转载自liuxinglanyue.iteye.com/blog/833486

java获取网页主信息之三:html to tree（转）

java获取网页主信息之一:html树操作[转]

java获取网页主信息之二:辅助操作（转）

java获取网页主信息之五:测试（转）

java获取网页主信息之四:抽取信息块（转）

Java list列表转Tree树形结构

(转)Java List结构转Tree树形结构_非递归

java list 转树 tree 的三种写法

Linux Device tree(三) - 获取DT信息

【转】Merkle Tree学习

JavaScript list转tree

list 递归转 tree

list转tree

B-tree/B+tree/B*tree(转)

[转]B+Tree图解

【转】Merkle Patricia Tree 详解

js 数组转tree结构

javascript 数组转tree结构

js扁平数据转tree

[转]Java Socket实战之三传输对象

html转图片网页截屏（三），puppeteer

python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst（转）

扁平数据转tree与tree数据扁平化

【转】PAT Tree 子串匹配结构

Device Tree常用方法解析【转】

什么是平衡树B-Tree？【转】

C# List 转 Tree 公共方法

Device Tree（一）：背景介绍转

list转tree，用于展示层级结构

FP Tree算法原理总结（转）

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)