java,html中抽取embed的src属性

项目的需要是在正文内容中上传了视频,这个正文内容传到后台是一个html. 在html中把视频链接抽取出来。存到转码表里进行转码

原有代码:

 

Pattern p= Pattern.compile("");
会把embed整个截取出来,其实这样也可以,但我不想用正则了,我怕用户上传别的格式,这个html变一下又报错,我打算用jsoup 截取html代码,然后通过找dom实现。代码如下:
// jar包如下   
 <dependency>
          <groupId>org.jsoup</groupId>
          <artifactId>jsoup</artifactId>
          <version>1.13.1</version>
      </dependency>
 //数据: 因为是公司数据,做了下处理,打乱了一下
String str="
                "<p style=\"white-space: normal; text-align: center;\">" +
                "<img src=\"http://xxxxxxx.oss-cn-hangzhou22.xxxxx.com/description22/9999999_1624605216924.png\" title=\"正在上传...\"/>" +
                "</p><p style=\"white-space: normal; text-indent: 2em;\"><br/></p><p style=\"white-space: normal; text-indent: 2em;\">"初心,牢记使命,从党的奋斗历史中汲取前进力量。</span></p><p style=\"white-space: normal; text-indent: 2em;\">" +
                "<span style=\"font-size: 20px;\">&nbsp;</span></p><p style=\"text-indent: 0em; white-space: normal; text-align: center;\">" +
                "<embed class=\"edui-faked-video\" pluginspage=\"http://www.macromedia.com/go/getflashplayer\" " +
                "src=\"https://xxxxx-xxx.bj.xxxx.com/standard22/nationalculturecloud/res/live/6.25%97%E4%BA%AC%E6%96%B0%E9%97%BB66.mp4\" " +
                "width=\"420\" height=\"280\" wmode=\"transparent\" play=\"true\" loop=\"false\" menu=\"false\" allowscriptaccess=\"never\" " +
                "allowfullscreen=\"true\"/></p><p style=\"white-space: normal; text-indent: 2em;\"><br/></p><p " +
                "style=\"white-space: normal; text-indent: 2em;\"><span style=\"font-size: 20px;\">" +
				</span></p><p><br/></p>";
//代码如下:
Document doc = Jsoup.parse(str);
		Elements rows = doc.select("embed[src]");
		if (rows.size()>0) {
			for(Element e: rows){
				System.out.println("text: " +e.attr("src"));			 
			}
		}


最后结果如下:

Guess you like

Origin blog.csdn.net/weixin_43075758/article/details/118225899