利用爬虫读取网页/ 通过http.request来读取网页 - 代码天地

利用爬虫读取网页/ 通过http.request来读取网页

其他 2021-12-14 23:57:04 阅读次数: 0

Beautiful Soup 是 python 的一个库，最主要的功能是从网页抓取数据

Beautiful Soup 自动将输入文档转换为 Unicode 编码，输出文档转换为 utf-8 编码。

#coding:utf-8
import requests
from bs4 import BeautifulSoup

def get_all_websites():
    url = "https://www.baidu.com"
    html_content = requests.get(url).text
    soup = BeautifulSoup(html_content, "html.parser")
    # find_all会将所有满足条件的值取出，组成一个list
    link_nodes = soup.find_all("a")
    for node in link_nodes:
        print(node.get("href"))
get_all_websites()


def visit_website(web_list):
    http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'})
    # str = 'https://blog.csdn.net/weixin_48262500/article/details/121183173?spm=1001.2014.3001.5501'
    
    for str in tqdm(web_list):
        # web_list为存储了网址的列表，通过http.request可以访问指定的网址
        resp1 = http.request('GET',str)

猜你喜欢

转载自blog.csdn.net/weixin_48262500/article/details/121136152

利用爬虫读取网页/ 通过http.request来读取网页

go两种方式读取http.Request数据

Go (Golang) 语言读取 http.Request 中 body 的内容

python : selenium 网页爬虫读取列表文件

Java Socket读取HTTP网页

python3爬虫（二）-使用beautiful soup 读取网页

JavaEE——爬虫（读取jsp网页上上传的文件）

Go开发之利用 Xpath 读取网页中想要的内容

Java Socket/HttpURLConnection读取HTTP网页

Python爬虫——利用爬虫从网页获取视频资源

Nutch读取网页字段

python 读取网页并分词

读取网页内容

Python读取网页的文档

lua 读取网页 luacurl

java读取网页

java读取网页内容

爬虫学习笔记（1）-- 利用Python从网页抓取数据

Python中利用BeautifulSoup库进行简单的网页爬虫

python爬虫-python 利用代理ip访问网页（requests）

python爬虫-python 利用代理ip访问网页（urllib）

利用Python爬虫实现网页图片批量下载

利用爬虫爬取简单页码类网页数据

利用爬虫的scrapy框架对网页中的数字进行求和

Python套接字Socket读取http网页web数据

网页爬虫

如何读取gzip压缩网页

XMLHttp读取网页后续篇

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

通过JSP网页链接MySQL数据库，读取数据库显示在JSP网页

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)