学校官网数据的爬取

思路:网页>需要页的链接>请求链接>获取链接中需要的内容>保存

import requests

import bs4

from bs4 import BeautifulSoup as bs

for i in range(1,11)://获取11页的新闻数据

    if i==1:

        url="http://news.gzcc.cn/html/xiaoyuanxinwen/index.html"

    else:

        url="http://news.gzcc.cn/html/xiaoyuanxinwen/"+str(i)+".html"

    r=requests.get(url)//获取每一页的链接

    r.encoding='utf-8'//转化编码格式

    soup=bs(r.text,'html.parser')//使用BeautifulSoup对数据进行格式化处理

    a=soup.select('.news-list li a ')//获取HTML中的新闻页所在的a标签

    for j in a:

        w=j.get('href')//获取链接

        w1=requests.get(w)

        w1.encoding='utf-8'//转换编码格式

        soup=bs(w1.text,'html.parser')

        c=soup.select('.show-content')

        d=c[0].get_text()//获取文本

        path="C:\\Users\\Administrator\\Desktop\\zcy\\text"//设置保存地址

        f=open(path+"\\"+w.split('/')[-1]+'.txt','a+',encoding='utf-8')//打开文件

        f.write(d)//把数据写进文件

        f.close()//关闭

        path1="C:\\Users\\Administrator\\Desktop\\zcy\\photo"//创建图片保存地址

        e =soup.select('div[style="text-align: center;"] img')//获取图片所在标签

        for z in e:

            r3=z.get('src')

            r4=requests.get(r3)

            f=open(path1+"\\"+r3.split('/')[-1],'wb')

            f.write(r4.content)

            r.close()

猜你喜欢

转载自blog.csdn.net/weixin_42013825/article/details/86746347
今日推荐