爬虫（3）爬取数据再处理 - 代码天地

爬虫（3）爬取数据再处理

其他 2021-03-24 03:16:14 阅读次数: 0

上次我们爬取了1960年世界的GDP
但是还是有一些数据需要去除的，比如空，还有有空格的地方，还有广告位等等，这里我们去除这些东西

from selenium import webdriver
from bs4 import BeautifulSoup

driver=webdriver.Chrome()
url="https://www.kylc.com/stats/global/yearly/g_gdp/1960.html"
xpath="/html/body/div[2]/div[1]/div[5]/div[1]/div/div/div/table"
driver.get(url)
tablel=driver.find_element_by_xpath(xpath).get_attribute('innerHTML')
soup=BeautifulSoup(tablel,"html.parser")
table=soup.find_all('tr')
for row in table:
    cols=[col.text for col in row.find_all('td')]
    if len(cols)==0 or not cols[0].isdigit():
        continue
    print(cols)

这里加了
if len(cols)==0 or not cols[0].isdigit():
continue
目的是去除空，列表第一个元素是空格的行，还有广告位
结果如下
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_53029299/article/details/114850455

爬虫（3）爬取数据再处理

Python爬虫入门【3】：美空网数据爬取

python：爬虫爬取数据的处理之Json字符串的处理（2）

Python爬虫-爬取天气信息(3)

python爬虫之爬取案例网页ajax请求的数据3之实现跨页爬取

python爬虫爬取网站数据

python爬虫东方数据爬取

node爬虫爬取csdn数据

pychong爬虫爬取bilibili弹幕数据

爬虫（5）：爬取拉钩网数据

爬虫：内涵吧数据爬取

python爬虫：爬取拉勾网数据

python爬虫爬取猫眼电影数据

python爬虫爬取斗鱼直播数据

爬虫：爬取股票历史交易数据

爬虫爬取不到数据原因总结

python ：通过爬虫爬取数据（1）

爬虫-移动端数据爬取

爬虫1.5-ajax数据爬取

python爬虫爬取异步加载的数据

爬虫之异步爬取加载数据

爬虫之爬取天眼查数据

Python爬虫爬取企查查数据

python爬虫,爬取表格数据

爬虫移动端数据爬取

Python 爬虫爬取多页数据

Python爬虫爬取数据的步骤

爬虫爬取股票数据

python爬虫 - 爬取豆瓣上的数据

「爬虫」从某网站爬取数据

今日推荐

周排行

联发科MT6139射频处理器工作原理分析

LeetCode-191. 位1的个数

kubernetes中挂载glusterfs并使用

MetricBeat（win/linux）部署系统CPU内存等资源情况监控

京东，想说爱你，并不容易！

CSS文本笔录

标题栏和状态栏同色

[校内互测]20170402

#3194. 去月球

gitlab学习(7)---gitlab数据恢复

每日归档

更多

2024-06-15(0)

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)