python爬虫小练习之二：bs4库以及遇到的问题 - 代码天地

python爬虫小练习之二：bs4库以及遇到的问题

其他 2018-06-20 12:32:26 阅读次数: 3

简单爬取猫途鹰旅游网信息
[https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html]

这里写图片描述
内容就是这样的，爬取标题，图片地址，以及标签

下面代码

from bs4 import BeautifulSoup
import requests

url = 'https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'
wb_data = requests.get(url)#返回response  200
#print(wb_data.text)   网页源代码内容

soup = BeautifulSoup(wb_data.text,'lxml')#解析网页
titles = soup.select('div.listing_title > a')#按照定位查找 6啊，直接div加class就能找到了
images = soup.select('img[width="180"]')#按照标签属性查找，其实这个也是挺好用的
cates = soup.select('div.p13n_reasoning_v2')

for title,img,cate in zip(titles,images,cates):
    data = {
        'title':title.get_text(),
        'img':img.get('src'),
        'cate':list(cate.stripped_strings)#这个要背下！
    }
    print(data)

代码也没什么好说的，还没有模拟登陆

结果
这里写图片描述

不要在意细节，但是发现问题了啊，图片的地址都一样！！！
毫无疑问，网站做了反爬机制了
这里写图片描述

Ctrl + F 搜索源代码，刚才没找到，………

从图片中可以看到，是有真实地址的，但是，看源码
这里写图片描述
源码中地址全部被存在script中了，js动态调用，根据ID号或者还有其他
这个用正则应该可以找到，毕竟东西都在源代码里，跑不掉的，但是，我还不会正则

这个练习就到这里吧，浅尝辄止
为的是见识更多不一样的页面，去分析他们，每次学点小技巧就OK
继续努力！

猜你喜欢

转载自blog.csdn.net/q1694222672/article/details/79346504

python爬虫小练习之二：bs4库以及遇到的问题

python爬虫小练习之一：bs4库基础爬信息

python爬虫二:bs4库中的BeautifulSoup模块

Python爬虫之bs4库

Python爬虫速成------bs4库

Python爬虫速成------bs4库

python爬虫8：bs4库

Python_爬虫_xpath/bs4/re小实战

爬虫学习(二)---bs4库的使用

python bs4库

python爬虫三：bs4库lxml

[ Python ] 爬虫类库学习之 bs4

爬虫（三）bs4库

爬虫_BS4

爬虫-BS4

Python爬虫bs4解析实战

python爬虫-bs4模块

python爬虫(十)-------------------bs4

python爬虫教程：bs4的使用

初探python爬虫（五）——bs4

python爬虫---bs4 模块

python requests bs4练习

python bs4 库简介

python的-bs4

bs4模块练习 [爬虫专题(7)]

基于bs4库和re库的天天基金网python爬虫

python爬虫用bs4获取标签中间的文本内容以及标签里的属性

bs4爬虫入门

request、bs4爬虫

Python爬虫(十五)_案例：使用bs4的爬虫

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)