python网络数据采集学习范例-通过互联网采集 - 代码天地

python网络数据采集学习范例-通过互联网采集

其他 2018-09-27 12:17:01 阅读次数: 0

这个程序从http://oreilly.com 开始，然后随机地从一个外链跳到另一个外链

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import datetime
import random
pages = set()
random.seed(datetime.datetime.now())
# 获取页面所有内链的列表
def getInternalLinks(bsObj, includeUrl):
    internalLinks = []
    # 找出所有以"/"开头的链接
    for link in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                internalLinks.append(link.attrs['href'])
    return internalLinks
# 获取页面所有外链的列表
def getExternalLinks(bsObj, excludeUrl):
    externalLinks = []
    # 找出所有以"http"或"www"开头且不包含当前URL的链接
    for link in bsObj.findAll("a",
                    href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in externalLinks:
                externalLinks.append(link.attrs['href'])
    return externalLinks
def splitAddress(address):
    addressParts = address.replace("http://", "").split("/")
    return addressParts
def getRandomExternalLink(startingPage):
    html = urlopen(startingPage)
    bsObj = BeautifulSoup(html,"html.parser")
    externalLinks = getExternalLinks(bsObj, splitAddress(startingPage)[0])
    if len(externalLinks) == 0:
        internalLinks = getInternalLinks(startingPage)
        return getNextExternalLink(internalLinks[random.randint(0,len(internalLinks)-1)])
    else:
        return externalLinks[random.randint(0, len(externalLinks)-1)]
def followExternalOnly(startingSite):
    externalLink = getRandomExternalLink("http://oreilly.com")
    print("随机外链是："+externalLink)
    followExternalOnly(externalLink)
followExternalOnly("http://oreilly.com")

猜你喜欢

转载自blog.csdn.net/choven_meng/article/details/78177417

python网络数据采集学习范例-通过互联网采集

通过互联网采集数据

网络分流器｜移动互联网采集方案

互联网数据采集和分析相关备忘

基于Web-Harvest精确采集互联网的数据

爬虫采集互联网数据的全过程；

爬虫采集互联网数据的全过程

网络分流器-移动互联网采集器之LTE网络结构

网络分流器｜3G/LTE业务采集｜移动互联网采集器－专业版

网络分流器｜3G/LTE业务采集器｜移动互联网采集器

Python网络数据采集

网络分流器｜移动互联网分流器采集方案

网络分流器-移动互联网采集器部署方案

python网络数据采集学习范例—利用CSS爬取网站特定标签，BeautifulSoup函数介绍及子标签

数据采集器 - 互联网数据挖掘指引工具

python网络数据采集学习笔记

Python网络数据采集----学习心得

Python网络数据采集学习笔记1

python网络数据采集学习笔记（三）

python学习之爬虫网络数据采集

.Net Core下使用HtmlAgilityPack解析采集互联网数据

关于互联网价格数据采集在价格领域的应用实践

网络分流器系列之网络分流器之移动互联网采集分流方案

网络分流器｜移动互联网采集器｜100G LTE核心网采集器

Python网络数据采集 PDF

python 网络数据采集1

python网络数据采集 Tesseract

python网络数据采集PDF

噪音监测传感器数据采集、统计、发送互联网和移动4G网数据备份

通过网络爬虫采集大数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)