爬虫一:爬取基本静态界面的标签内容_ - 代码天地

爬虫一:爬取基本静态界面的标签内容_

其他 2018-09-15 23:43:47 阅读次数: 0

版权声明：本文为博主原创文章，如果转走了就评论说一声就好了哈。 https://blog.csdn.net/qq_36124802/article/details/80338982

chrome中CSS Selector与XPath均为描述一个标签的路径

CSS Selector的描述方式为：

body->div.main-content >ul > li:nth-child（1）->img的方式

而XPath为：

html/body/div[2]/ul/li[1]/img

其中汤勺只认Selector方式的路径

#coding=utf-8
import json
from _md5 import md5
from multiprocessing.pool import Pool
import re
import os
import requests
from urllib.parse import urlencode
from bs4 import BeautifulSoup
#创建浏览器的头去模拟浏览器获取信息
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}

url = 'http://maoyan.com/board'
res = requests.get(url,headers=HEADERS)
res.encoding = 'utf-8'
text = res.text
Soup = BeautifulSoup(text,'lxml')
images = Soup.select('#app > div > div > div > dl > dd > a > img.board-img')
roles = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.star')
titles = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.name > a')
begin_times = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.releasetime')
#print(images)
#dd:nth-child(1)改为dd:nth-of-type(1)
#选择到了自己想要的第一个位置
#在dd后面删除:nth-of-type(1)，以便把所有信息均筛选出来
#汤勺可以筛选出想要的标签内容
#zip的用法是将多个函数的迭代器，合成一个迭代器

for title,image,role,begin_time in zip(titles,images,roles,begin_times):
    data = {
        'title' : title.get_text(),
        'image': image.get('data-src'),
        #image.get('data-src')为得到data-src标签中的内容
        'role': role.get_text(),
        #a.stripped_strings,是get_text的高级版，相当于把所有子文本框内容存到一个数组当中
        'begin_time': begin_time.get_text()
    }
    print(data)
    #title.get_text()为筛选出标签中的所有文本信息

猜你喜欢

转载自blog.csdn.net/qq_36124802/article/details/80338982

爬虫一:爬取基本静态界面的标签内容_

python爬虫详解（一）——爬取bilibili网页基本内容

爬虫入门（一）：用Python爬取静态HTML网页

爬虫爬取一个div下多个标签

【爬虫】使用 Scrapy + Selenium 爬取动态加载页面的内容

爬虫的基本原理：动态渲染页面的爬取

node js 爬虫爬取静态页面，

爬虫实战_爬取静态单张图片

Python爬虫:静态网址的爬取

Python爬虫爬取新浪新闻内容

爬虫初体验-爬取小说内容

scrapy定制爬虫-爬取javascript内容

Python爬虫之爬取静态网站——爬取各大币交易网站公告（一）.md

Python爬虫入门实例一之淘宝商品页面的爬取

爬虫基本流程及简单爬取网页

爬取静态页面内容加分页内容

使用无界面的方式对斗鱼进行爬取

python爬虫爬取异步加载网页信息（python抓取网页中无法通过网页标签属性抓取的内容）

node爬虫系列（一）爬取静态网页图片链接并下载

scrapy(四): 爬取二级页面的内容

用一个小小小爬虫，爬取淘宝宝贝评价内容

网络爬虫-京东商品页面的爬取

基于Selenium技术方案的爬取界面内容实践

简单静态网页爬取（一）

python爬虫股票界面爬取 DAY6

python爬虫之-------无界面爬取（快速入门）

爬虫入门之爬取静态网页表格数据

爬虫入门——静态网页爬取：批量获取高清壁纸

python网络爬虫（7）爬取静态数据详解

Python爬虫入门教程二：爬取静态网页

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)