爬取网站的子链接和标题

企业开发 2023-04-06 20:53:45 阅读次数: 0

内容

根据自己输入的网址，去爬取网页的子链接和标题。

#子链接 标题＋url
import re
import urllib
import requests
from bs4 import BeautifulSoup
import datetime

exist_url = []  # 存放已爬取的网页
ALL_URLS = []
urls = []

#获取title
def get_title(url):
    try:
        context = ssl.SSLContext()
        page = urllib.request.urlopen(url=url,context=context)
    except Exception as e:
        print(e)
    else:
        html = page.read().decode('utf-8')
        title = re.findall('<title>(.+)</title>', html)
        return title

#判断url是否有效
def isValidURL(str):
    # Regex to check valid URL
    regex = ("((http|https)://)(www.)?" +
             "[a-zA-Z0-9@:%._\\+~#?&//=]" +
             "{2,256}\\.[a-z]" +
             "{2,6}\\b([-a-zA-Z0-9@:%" +
             "._\\+~#?&//=]*)")

    # Compile the ReGex
    p = re.compile(regex)

    # If the string is empty
    # return false
    if (str == None):
        return False

    # Return if the string
    # matched the ReGex
    if (re.search(p, str)):
        return True
    else:
        return False

#获取子链接
def load(url):
    # 记录已经爬取过的url
    exist_url.append(url)
    all_urls=[]
    # 获取网页内容
    headers = {
    
    'Connection': 'close'}
    if(isValidURL(url)):
        try:
            r = requests.get(url,verify=False)
            if r.status_code == 200:
                data = r.text
                # 利用正则查找所有连接
                link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", data)
                #去重 删除已经爬取过的连接
                unique_list = list(set(link_list) - set(exist_url))

                for url1 in unique_list:
                    newUrl = parse.urljoin(url, url1)
                    if (isValidURL(newUrl)):

                        all_urls.append(newUrl)

        except:
            print('错误连接: ')
            pass
        return all_urls

url='http://www.baidu.cn'
page_1=load(url) #获取指定url的子链接和标题
i=0
for u1 in page_1:
    try:
        s1 = get_title(u1)
        title1=s1[0]
    except:
        title1="没有获取到title"
    print({
    
    "ID":i,"time":datetime.datetime.strftime(datetime.datetime.now(),'%Y-%m-%d %H:%M:%S'),"title":title1,"url":u1})
    i += 1

猜你喜欢

转载自blog.csdn.net/mitongxue/article/details/125634740

爬取网站的子链接和标题

爬网站文字链接及标题

多线程爬取新闻标题和链接

python爬取个人csdn博客链接和标题

爬虫--爬取网站链接

【python爬虫自学笔记】-----爬取简书网站首页文章标题与链接

如何爬取CSDN博客中分栏的所有文章的标题和链接

爬取博主的所有文章的标题、链接和内容

利用python爬取分享网站链接

Node.js爬取十九大报告标题链接

汽车之家数据爬取:文章链接//图片//标题

python爬取博客圆首页文章链接+标题

re 正则表达式爬取网站标题

爬虫--多线程编程-提高效率--泛见(犯贱)志趣图标题和链接爬取

wordpress网站通过页面ID获取标题和链接的方法

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

网络爬虫百度新闻标题及链接爬取

爬取某学校教务处发布的含有申报的通知的正文、标题、日期、链接

爬取百度学术：标题，关键词，年份，摘要，原链接，作者。

python爬虫——爬取链节点区块链社区所有帖子标题和链接，整理成json文件并保存

Python爬取新闻网站保存标题、内容、日期、图片等数据

python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

网站爬取工具

爬取网站附件

爬取菜谱网站

python 爬取网站获得一个网站的所有链接

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

爬取电影天堂最新电影的名称和下载链接

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据

python 爬取页面链接

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)