python之大作业 - 代码天地

python之大作业

其他 2019-12-16 09:17:28 阅读次数: 0

一、题目要求

获得网页中A-Z所有名字并且爬取名字详情页中的信息，如姓名，性别，，说明等，并存放到csv中（网址：http://www.thinkbabynames.com/start/0/A）

现在得到了所要的信息，但是还没有存入csv中

网页截图：

二、题目分析以及解答

首先要获得从A-Z网页连接，规律为只有最后一个字母改变，所以代码如下：

def get_url():#得到A-Z所有网站
    urls=[]
    for i in range(1, 27):
        i = chr(i+96)
        urls.append('http://www.thinkbabynames.com/start/0/%s'%i)
    return urls
    pass

利用循环得到从A-Z所有网页链接，然后再爬取所有名字，名字详情页的连接以及所需内容，代码如下：

def parse_html(url):#得到所有名字以及连接，爬取所需内容
    docx=requests.get(url)
    soup=BeautifulSoup(docx.content,'html.parser')
    c_txt1=soup.find('section',{'id':'index'}).findAll('b')
    url=[]
    for x in c_txt1:
        if x.find('a'):
            i=x.find('a')['href'].split("/")[-1]#使用正则表达式获得所有名字
            url.append('http://www.thinkbabynames.com/meaning/0/%s'%i)#获得所有名字详情页链接
            r=requests.get('http://www.thinkbabynames.com/meaning/0/%s'%i)
            result=r.text
            bs=BeautifulSoup(result,'html.parser')
            li=bs.find('div',class_='content').find('h1')
            print("EnNama:")
            Enname=li.text[8::1]#使用切片语法获得详情页名字(s[x:y:z]x为起始，y为终止，z为步长)
            print(Enname)
            print("Gender:")
            Gender=li.text[1:8:1]#使用切片语法获得详情页名字
            print(Gender)
            li1=bs.find('section',id='meaning').find('p')
            print("Description:")
            Description=li1.text
            print(Description)
            print()
    pass

运行结果部分截图：

下一步操作是把爬取到的信息存到csv中，正在努力中。

猜你喜欢

转载自www.cnblogs.com/sndd/p/12035073.html

python之大作业

python大作业

python大作业二

Python 大作业：弹球游戏

Python大作业准备（一）

python 周末大作业之2

python数据分析大作业

python选修课大作业

【Python大作业】耦合网络信息传播

python大作业之通讯管理系统

Python大作业-网络爬虫程序

大作业

html+css大作业、python大作业（小游戏和web）、html+css+jquery大作业、java程序设计大作业、dotNet（.net）大作业等分享

爬虫大作业爬虫大作业

网络攻防大作业——用python实现wifi破解

Python学习笔记-Day17-员工信息大作业

python第一次周末大作业

某航某个大作业：十五数码A*算法，Python实现

python第二次周末大作业

python第三次周末大作业

Python大作业：Grid_solar_EV_data.txt的操作

python大作业-汽车管理系统-matplot绘图

python大作业高分项目--射击闯关游戏

python实验课大作业人脸识别项目

python大作业：图书管理系统课设报告

pygame飞机大战小游戏（python大作业）

爬虫大作业（修改）

爬虫大作业

爬虫大作业

Hadoop综合大作业

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)