Python爬虫随笔 - 代码天地

Python爬虫随笔

其他 2020-05-19 00:20:41 阅读次数: 0

1.网络数据采集的一个常用功能就是获取 HTML 表格并写入 CSV 文件。维基百科的文本编辑器对比词条（https://en.wikipedia.org/wiki/Comparison_of_text_editors）中用了许多复杂的 HTML 表格，用到了颜色、链接、排序，以及其他在写入 CSV 文件之前需要忽略的 HTML 元素。用 BeautifulSoup 和 get_text() 函数，你可以用十几行代码完成这件事：

 1 import csv
 2 from urllib.request import urlopen
 3 from bs4 import BeautifulSoup
 4 html = urlopen("http://en.wikipedia.org/wiki/Comparison_of_text_editors")
 5 bsObj = BeautifulSoup(html)
 6 # 主对比表格是当前页面上的第一个表格
 7 table = bsObj.findAll("table",{"class":"wikitable"})[0]
 8 rows = table.findAll("tr")
 9 csvFile = open("C:/Users/Administrator/Desktop/test2.csv", 'wt', newline="", encoding='utf-8')
10 writer = csv.writer(csvFile)
11 try:
12      for row in rows:
13          csvRow = []
14          for cell in row.findAll(['td', 'th']):
15              csvRow.append(cell.get_text())
16              writer.writerow(csvRow)
17 finally:
18 
19     csvFile.close()

猜你喜欢

转载自www.cnblogs.com/yeu4h3uh2/p/12913893.html

Python爬虫随笔

python爬虫随笔(2)—启动爬虫与xpath

爬虫学习随笔

网络爬虫随笔

python随笔

python 随笔

学习随笔 Scrapy爬虫框架

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

python环境搭建随笔

菜鸟python随笔1

python随笔02

python随笔1

python学习随笔记

学习python随笔记

python随笔4(if语句)

个人—Python入门随笔

python基础随笔

[Python随笔]>>range()函数？

Python学习随笔

Python基础学习随笔

python小知识随笔

python随笔5(字典)

初学python随笔

初学python随笔——Copy

初学python随笔——函数

Python随笔记（函数）

Python学习期间的随笔

python自学笔记-随笔

Python 列表（List）随笔

python随笔（函数）

今日推荐

周排行

键盘回车事件

提升git clone的速度

JDK8系列之LongAdder解析

ajax+formData完成多图片回显上传

个税起征点上调至5000元，你能多拿多少钱？

Exploding Carbon Nanotubes Could Work as Drug-Bas power sensor ed Delivery Devices

南京邮电大学网络攻防训练平台逆向第四题WxyVM

HTTP状态码记录

报错Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解决办法

sublime编译c

每日归档

更多

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)