Day2-《青春有你2》选手信息爬取 - 代码天地

Day2-《青春有你2》选手信息爬取

其他 2020-04-29 13:19:13 阅读次数: 0

书写代码部分

def crawl_pic_urls():

'''

爬取每个选手的百度百科图片，并保存

'''

with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:

json_array = json.loads(file.read())

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

}

import pdb

for star in json_array:

name = star['name']

link = star['link']

#！！！请在以下完成对每个选手图片的爬取，将所有图片url存储在一个列表pic_urls中！！！

# pdb.set_trace()

pic_urls=[]

print(name,link)

try:

response = requests.get(link,headers=headers)

print(response.status_code)

#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串

soup = BeautifulSoup(response.text,'lxml')

#返回的是class为table-view log-set-param的<table>所有标签

tables = soup.find_all('div',{'class':'summary-pic'})

# crawl_table_title = "参赛学员"

for table in tables:

#对当前节点前面的标签和字符串进行查找

# table_hrefs = table.select("img")

table_hrefs = table.select("a")

for href in table_hrefs:

# pdb.set_trace()

# data=href.get('src')

# pic_urls.append(data)

data=href.get('href')

# data_list=data.split('/')

url_data='https://baike.baidu.com'+data

# pdb.set_trace()

try:

response = requests.get(url_data,headers=headers)

print(response.status_code)

soup = BeautifulSoup(response.text,'lxml')

pics=soup.select('.pic-list img ')

for pic in pics:

src=pic.get('src')

pic_urls.append(src)

# pics = soup.find_all('div',{'class':'pic-list'})

# for pic in pics:

# pic_urls = pic.select("a")

# for pu in pic_urls:

# imgs=pu.select('img')

# for img in imgs:

# src=img.get('src')

# if src:

# pic_urls.append(src)

except Exception as e:

print(e)

# pic_urls.append(url_data)

except Exception as e:

print(e)

#！！！根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中！！！

down_pic(name,pic_urls)

cgq081616

原创文章 13 获赞 5 访问量 1万+

关注私信

猜你喜欢

转载自blog.csdn.net/cgq081616/article/details/105814073

Day2-《青春有你2》选手信息爬取

paddlepaddle(飞桨) python 教学 Day2-《青春有你2》选手信息爬取--解答

飞桨学院-Python从小白逆袭大神-DAY2-青春有你2选手信息爬取

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day2：《青春有你2》选手信息爬取

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息

Day4-《青春有你2》选手识别

Day4-《青春有你2》选手识别 PaddleHub之《青春有你2》作业：五人识别

DAY3《青春有你2》选手数据分析

Day3-《青春有你2》选手数据分析

Python小白逆袭大神:Day4-《青春有你2》选手识别

aistdio paddlepaddle(飞浆) python 学习 Day3-《青春有你2》选手数据分析

Day5《青春有你2》评论数据爬取与词云分析

青春有你利用飞桨给青春有你2的选手们做数据分析

飞桨学院-Python从小白逆袭大神-Day3-《青春有你2》选手数据分析

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day4：《青春有你2》选手识别

【飞桨深度学习 && 百度七日打卡 && Python小白逆袭大神】Day3：《青春有你2》选手数据分析

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(三):看图像识选手

Day2-栈

选手信息展示界面模板-Blue

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据

各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(四):AI分析谁最容易出道

手把手教你爬取优酷电影信息-2

爬取网易云音乐“三部曲”（一）：爬取歌手信息！

day2-安装python

飞桨学院Python小白逆袭大神第二天《青春有你2》练习生照片爬取

Day2 《青春有你2》Python 爬虫和人像动漫体验

[WebShow系列] 选手信息及打分展示界面选项及现场操作说明

如果打算排行榜自定义,把所有选手信息全部显示一页。如何操作?

day2-关于python基础

day2-三级菜单

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)