抓取世界500强公司 - 代码天地

抓取世界500强公司

编程语言 2019-04-17 12:31:50 阅读次数: 0

正则表达式练手

获取url&解析
正则表达式&匹配
写入表格&保存

import re
from bs4 import BeautifulSoup
import openpyxl
from urllib import request

url='http://www.fortunechina.com/fortune500/c/2018-07/19/content_311046.htm'

req=request.urlopen(url).read()
soup1 =BeautifulSoup(req,'html.parser')
'''
<tbody>
<tr>
<td>1</td> 排名
<td>1</td> 上年排名
<td><a href="../../../../global500/3/2018" target="_blank">沃尔玛（WALMART) </a></td>  名称
<td>500,343</td> 营业收入 （百万美元）
<td>9,862</td> 利润 （百万美元）
<td>美国</td></tr> 国家
'''
#正则表达式
ranking = re.compile(r'<tr>\n<td>(\d*)</td>\n<td>(.*)</td>')  #排名 ，有的企业上年排名缺失，故用通配符
revenue = re.compile(r'''</a></td>\n<td>(.*)</td>\n<td>(.*)</td>''') #营业收入以及利润
enterprise = re.compile(r'blank">(.*) </a></td>') #名称
nation = re.compile(r'<td>(.*)</td></tr>') #国家
soup2 = str(soup1)
mo1 = ranking.findall(soup2) #返回元组列表
mo3 = revenue.findall(soup2) #元组列表
mo2 = enterprise.findall(soup2) #列表
mo4 = nation.findall(soup2) #列表
rank = []
ranked = []
profit = []
netprofit = []
for i in mo1:
    rank.append(i[0])
    ranked.append(i[1])
for i in mo3:
    profit.append(i[0])
    netprofit.append(i[1])
 #创建并写入表格
wb = openpyxl.Workbook()
sheet = wb.active
#插入表头
sheet['a1']='排名'
sheet['b1']='去年排名'
sheet['c1']='名称'
sheet['d1']='营业收入'
sheet['e1']='利润'
sheet['f1']='国家'
#写入数据
for i in range(0,500):
    k = i + 2  #单元格第一格是1，并留出表头
    sheet['A%d'%k] = rank[i]
    sheet['b%d'%k] = ranked[i]
    sheet['c%s'%k] = mo2[i]
    sheet['d%d'%k] = profit[i]
    sheet['e%d'%k] = netprofit[i]
    sheet['f%s'%k] = mo4[i]
#保存
wb.save('500.xlsx')

结果如下图
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Severus_20/article/details/88880768

抓取世界500强公司

世界500强公司要求员工会应用的方法和工具

世界500强第二的公司，你却以为只是个收电费的！

世界500强公司要求员工必须熟练掌握的七种工作方法

世界500强公司，都在遵循的七大管理原则

世界500强公司面试题——台阶问题的分析与Python实现原创王帅

你与世界500强，可能就差了这个！

放弃500强选择加入创业公司

程序员的创意被IBM拒绝，一怒之下自己创办公司，现成世界500强

听说小米进入世界500强啦？解读历年500强数据了解国情

7月20日科技联播：《财富》发布世界500强，中国公司入围120家，仅比美国少六家

［多看看］2018世界500强

世界500强企业是如何开展财务共享工作的？

世界500强都摒弃使用FTP的真实原因

2022财富世界500强排行榜

有hcie证书可以进什么样公司？是世界500强还是互联网公司，一般都是做什么工作岗位的？具体工作内容干什么呢？

TOP500、Green500强和Graph500强的最新世界排名，来自中国的超级计算机

[10期] 世界500强美国企业北京研发中心

三入世界500强，京东如何重新定义伟大？

中国46家区块链企业上榜财富杂志世界500强，你还在犹豫？

Python 社区治理方案出炉，世界品牌 500 强中国 38 个品牌入选

世界500强塔塔汽车联手嘉益仕，共同打造智能仓储

听过讲座《如何敲开世界500强企业大门》的感想

他低估了美国的心狠手辣，世界500强企业就此被肢解

想要年薪百万？这份世界500强企业都在用的管理方法请收藏

资深网工进入世界500强企业：BGP的这些必须牢记

世界500强企业集体搬家深圳，程序员：“未来硅谷”，科技之城！

从大专到世界500强，我做软件测试的这10年...

用Python构建大数据推荐系统：一个世界500强企业的成功案例

2023年世界500强出炉，中企上榜数量位居全球之首

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)