提取页面、文件中的链接 - 代码天地

提取页面、文件中的链接

编程语言 2018-05-12 12:39:47 阅读次数: 0


import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class PatternTest {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String path="d:/test.txt";
		PatternTest t = new PatternTest();
		String regexhref = "<(?i)img.*?>";
		String content = t.redFIle(path);
		String sss= t.replaceHref(content,regexhref);
		
	}
	
	
	public  String redFIle(String path) {
		FileInputStream fin;
		StringBuffer sb = new StringBuffer();
		try {
			fin = new FileInputStream(path);
			InputStreamReader rdr = new InputStreamReader(fin, "utf-8");
			BufferedReader br = new BufferedReader(rdr);// 文件读字符流
			String s;
			while ((s = br.readLine()) != null) {
				 sb.append(s);
			}
			br.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
		return sb.toString();
		
	}
	
	
	 public String replaceHref(String hBody, String regex) {
			String url="";
			String includ = "";
			Pattern pt = Pattern.compile(regex,Pattern.DOTALL);
			Matcher mt = pt.matcher(hBody);
			while (mt.find()) {
				includ = mt.group();
				System.out.println(includ); //打印img标签
				String srcregex = "src=(\".*?\")|src=(\'.*?\')|src=(.*?\\s)|src=(.*?>)";
				url = getContents(includ, srcregex).trim();
				//System.out.println(url);//打印src中的内容
			}
			return url;
		}
		
		
		
//提取href中的内容
	 private String getContents(String contents,String regx){
		 
		 String url="";
		 Pattern srcpt=Pattern.compile(regx);
		 Matcher srcmt=srcpt.matcher(contents);
		 
		 while(srcmt.find()){	 
			 url= srcmt.group().replaceAll("src=\"|\"|src=\'|\'|src=|>", "");
		 }
		 return url;
	 }
	 
	 
	
	}

猜你喜欢

转载自javapx.iteye.com/blog/1958294

提取页面、文件中的链接

PDF编辑技巧：怎么提取PDF文件中的页面

提取EXCEL文字中的链接

python 提取链接中的域名

Beamer 中的页面链接

怎么提取PDF中的页面？

如何提取PDF中的页面？

文件中数字的提取

Scrapy爬虫中的链接提取器LinkExtractor

jsoup 提取 html中的所有链接

提取一段文字中的链接

页面中href链接的碰撞

如何在PDF文件内提取页面

怎样提取PDF文件其中几个页面

页面中 js,css 集中提取

38 - 提取HTML页面中的URL

提取加密文件中的pdf

PHP 页面提取关键字和查找页面的所有链接

PDF文件如何提取页面，PDF提取页面的小技巧

将metalink中的网页链接用python 提取

用selenium提取html标签中的@href链接

JAVA提取字符串中的URL链接

app中页面滑动，防止a链接误触

JS前端获取页面、链接中的参数

Linux中的链接文件_软链接和硬链接

静态链接中的目标文件

怎么编辑PDF，如何提取PDF文件页面

使用Python提取PDF文件中指定页面的内容

提取FBX文件中mesh的信息

怎么提取pdf文件中的图片

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)