Python3爬取某网站内外链接并分类存入数据库 - 代码天地

Python3爬取某网站内外链接并分类存入数据库

编程语言 2018-05-12 00:51:00 阅读次数: 0

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pymysql
import requests
import re

#定义两个空数组
inUrl = []
outUrl = []

#将外链接写入元组
def outLink(url):
    if url in outUrl:
        pass
    else:
        outUrl.append(url)
#将内链接写入元组
def inLink(url):
    url = re.sub("^/", "", url) # 使用正则表达式对数据或者字符串内容进行替换
    url = "http://www.hpu.edu.cn/" + url
    if url in inUrl:
        pass
    else:
        inUrl.append(url)
#读取数据表数据或者判断数据表数据是否为空 做哪项任务用参数judge决定
def lookUpSql(judge):
    sql = "select * from pages"
    try:
        cur.execute(sql)
        results = cur.fetchall()#获取数据表数据
        if judge:
            for row in results:
                print(row)
        else:
            return results
    except Exception as e:
        conn.rollback()
        print(e)
#向数据库中写入数据 写入内链接
def insertSql(inUrl):
    try:
        for i, m in enumerate(inUrl):
            sql = "insert into pages(id, title, content) values (\"%d\", \"%s\", \"%s\")" % (i, 'href', m)
            cur.execute(sql)
            conn.commit() #提交事件
    except Exception as e:
        conn.rollback()
        # print(e)


html = urlopen("http://")
bsObj = BeautifulSoup(html, "html.parser")
bsObj = bsObj.findAll("a")
for link in bsObj:
    url = link.get('href')#.get('attribute')获取爬取数据的某一属性
    if 'http' not in url:
        inLink(url)
    else:
        outLink(url)

conn = pymysql.connect("localhost", "root", "")
cur = conn.cursor()
cur.execute("use scraping")
row = lookUpSql(0)
if row == None:
    insertSql(inUrl)
else:
    sql = "delete from pages"
    try:
        cur.execute(sql)
        conn.commit()
    except Exception as e:
        conn.rollback()
        print(e)
    insertSql(inUrl)

lookUpSql(1)

conn.close()

# for i in outUrl:
#     print(i)

猜你喜欢

转载自blog.csdn.net/qq_40397452/article/details/80279545

Python3爬取某网站内外链接并分类存入数据库

Python分类爬取医疗信息网站图片，存入数据库和本地

python3 scrapy爬虫进行爬取数据存入MySQL数据库

Python3 + Scrapy 爬取豆瓣评分数据存入Mysql与MongoDB数据库。

Python3 +Scrapy 爬取腾讯控股股票信息存入数据库中

利用python3爬虫爬取全国天气数据并保存入Mysql数据库

分类爬取新闻并存入mysql数据库

python爬虫爬取ip记录网站信息并存入数据库

使用Python3+scrapy爬取某电影网站数万条数据到MySQL数据库！

python爬取网站内容

Python3 Scrapy框架学习四：爬取的数据存入MongoDB

Python3 爬取51job的数据存入MongoDB并分析

Python3爬取猫眼电影榜并将数据存入MySql

python爬虫示例爬取网页信息，并且将爬取到的信息存入数据库。

python爬取数据存入数据库,python爬虫保存数据

python爬取百度新闻数据,python爬取新闻网站内容

python3爬虫爬取英语单词到MySQL数据库

Python使用Scrapy框架爬取某网站职位数据并存放到MySQL数据库（支持二级页面爬取）

scrapy爬取的数据存入到数据库中

雪球网爬取数据并存入数据库

雪球--数据的爬取并存入数据库

Python 爬取数据并存入SQL Server数据库

python爬取豆瓣电影top250数据存入数据库

怎样用python3爬取电子书网站所有下载链接

爬取腾讯招聘信息存入mongodb数据库

爬取虎扑社区，存入MongoDB数据库

python 爬取微博实时热搜，并存入数据库实例

python爬虫十一：scrapy框架爬取天气，存入数据库

Python爬取拉勾网招聘信息存入数据库

python3.7爬虫实战系列爬取掘金网首页存入mysql数据库

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)