Python学习之requests、 BeautifulSoup(一) - 代码天地

Python学习之requests、 BeautifulSoup(一)

其他 2020-10-26 12:31:04 阅读次数: 0

总述

爬虫主要用于互联网数据的有效收集，例如各地区房价的数据、各地区人均收入的统计、以及视频评分的统计等。收集的数据后用来进行数据分析。

主要库介绍

requests 顾名思义可以看出这是一个http的请求库，主要用于网站数据的请求下载。

import requests 

#请求数据
requests.get(url)  #请求数据下发，此处由于有些网站有放爬虫机制，可以改变header模拟浏览器


headers = {
    
    
      "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}
response = requests.get( url , headers=headers)

#获取数据
response.text  #解码后的文本
response.content  #网络传输的二进制数据，例如一个api请求图片下载可以用着来保存到本地文件

BeautifulSoup(bs4) 解析html页面数据

from bs4 import BeautifulSoup 

soup = BeautifulSoup(response.text,'lxml')  #第二参数为解析引擎可以更改
#常用方法
soup.find("li" , class_ = "list-item") #第一个参数html标签，第二个参数css类，查找到一个结束
soup.findall()#与上同，搜索所有满足条件的对象	
soup.select("") 
'''
'.类名'  css类查找 
'#id'    标签id查找
'标签 #id(包括子标签)
'父标签 > 子标签'  层级查找
'''

re 正则

import re

rule = re.compile("")   #建立规则
'''
  {} 长度    
  ^ 开头     
  \d 表明整数    
  \w表明包含下划线的字母     
  [^xyz] 匹配未被包含的任意字符     
  \s 匹配空格符     
  \S 匹配非空格字符串     
  () 表明一组，正则也按分组返回
  ?P<""> 分组命名	
'''
re.findall(rule, obj_str)

pandas

爬取到数据可以保存到数据库去，例如：mysql，MongoDB，为了方便此处保存到csv文件。

import pandas as pd
'''
analyse_array_1 = [] #假设此处为采集到的数据
analyse_array_2 = [] #假设此处为采集到的数据
analyse_array_3 = [] #假设此处为采集到的数据
#合并
analyse_array = zip(analyse_array_1,analyse_array_2,analyse_array_2)
'''

#转换pandas数据格式
pd_csv_data = pd.DataFrame(analyse_array ，columns =["c1", "c2", "c3"])

#保存
pd_csv.to_csv(csv_path, index=False , encoding="gb18030")

猜你喜欢

转载自blog.csdn.net/tulongyongshi/article/details/108678813

Python学习之requests、 BeautifulSoup(一)

【爬虫学习一】 Python实现简单爬虫（requests，BeautifulSoup）

python爬虫第一弹之图片- BeautifulSoup与requests的完美结合（用requests和BeautifulSoup进行爬虫）

Python基础学习之requests基础(一)

Python爬虫之BeautifulSoup和requests的使用

python爬虫之requests+selenium+BeautifulSoup

python3爬虫(基于requests、BeautifulSoup4)之项目实战(一)

Python中beautifulsoup学习笔记一

python学习爬虫（1）--环境搭建Python+requests+BeautifulSoup

requests beautifulsoup

requests与BeautifulSoup

requests and BeautifulSoup

python爬虫基础（requests、BeautifulSoup）

python安装requests和BeautifulSoup

python股票数据爬虫requests、etree、BeautifulSoup学习

Python学习笔记11：爬虫（requests和BeautifulSoup）

使用requests + beautifulsoup 写一个简单的漫画爬虫

Python爬虫之BeautifulSoup库(一)：介绍与快速开始

python爬虫之数据解析（一）：BeautifulSoup4库

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

一个超实用的python爬虫功能使用 requests BeautifulSoup

Python爬虫（一）：用 Requests + BeautifulSoup 爬取网站上的信息

python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)

python爬虫之BeautifulSoup学习

python爬虫日志（7）BeautifulSoup的一些简单知识

python-webbrowser/requests/BeautifulSoup/selenium

python3 爬虫（requests+BeautifulSoup）

python安装Beautifulsoup和requests模块

Python网络爬虫笔记（四）——requests与BeautifulSoup

python爬虫基础Ⅰ——requests、BeautifulSoup：书本信息

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)