爬虫類java

編集者は単にクローラーを歩いています

在这里插入代码片
public static void main(String []args) {
		StringBuilder s1=new StringBuilder();
		try {
		URL url=new URL("https://www.nowcoder.com/tutorial/10001/d018a57e861d4616a44d0e04fdd5641e");//爬取网址
	BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName("utf-8")));//生成对象和设置解码
	String s;
	
	while((s=reader.readLine())!=null)
		s1.append(s);//读取网址中内容
	} catch (IOException e) {
		// TODO 自动生成的 catch 块
		e.printStackTrace();
	}
		
Pattern p=Pattern.compile("href=\"(.+?)\"");
	Matcher m=p.matcher(s1);
	while(m.find())
		System.out.println(m.group(1));//输出网址内容超链接,小编自己设置的正则表达式,可能该正则表达式不准确
	
	}
元の記事を152件公開 賞賛された16件 30,000回以上の閲覧

おすすめ

転載: blog.csdn.net/feiqipengcheng/article/details/105328180