Python小项目——爬虫东方财富的文章 - 代码天地

Python小项目——爬虫东方财富的文章

其他 2020-01-25 14:33:48 阅读次数: 0

环境配置

安装Python3.7.3，beautifulsoup4， requests

请求打印html页面内容

import requests
url = 'http://www.eastmoney.com/'
req = requests.get(url)
req.encoding = req.apparent_encoding
html = req.text

执行print（html）就能打印网页内容

网页解析

解析网页源码模块用Beautifulsoup模块提取东方财富网首页的消息为例，右键点击对应的元素，选择检查，然后我们就可以看到网页的源代码了。

我们发现对应的元素都被<div class="nlist">选定，相应的我们可以把相应的代码筛选出来。

from bs4 import BeautifulSoup
bf = BeautifulSoup(html, 'lxml')
nmlist = bf.find_all(class_ = 'nlist')

发现消息的标题和连接<a>给限定出来，用find_all方法获取

a = nlist.find_all('a')
for each in a:
    print(each.string, each.get('href'))

存储CSV

import csv
date = open('test.csv','w')
writer = csv.writer(date)
date.close()

完整代码如下

# -*- coding: utf-8 -*-
# @Time    : 2019/4/8 17:40
# @Author  : linjingtu
# @Email   : [email protected]
# @File    : test.py
# @Software: PyCharm

import requests
import lxml
from bs4 import BeautifulSoup
import csv

date = open('F:\\test.csv', 'w+')
writer = csv.writer(date)

url = 'http://www.eastmoney.com/'
req = requests.get(url)
req.encoding = req.apparent_encoding
html = req.text

bf = BeautifulSoup(html, 'lxml')
nlist = bf.find_all(class_ = 'nlist')[0]

a = nlist.find_all('a')
for each in a:
    a_list = []
    a_list.append(each.string)
    a_list.append(each.get('href'))
    writer.writerow(a_list)

date.close()
#print(nlist)

深圳程序员交流群550846167

_tonyl

发布了259 篇原创文章 · 获赞 67 · 访问量 18万+

私信关注

猜你喜欢

转载自blog.csdn.net/linjingtu/article/details/89156781

Python小项目——爬虫东方财富的文章

Python爬虫实战小项目

python学习————爬虫小项目

东方财富网数据抓取 | 爬虫

爬虫环境+基础+东方财富实战

东方财经财富号爬虫流程(3) --在项目中对于账号等敏感信息的处理

python爬虫：Selenium 爬取东方财富网上市公司财务报表

python自学-class20-爬取东方财富网股票数据(爬虫)

python项目实战:爬取东方财富热门股票数据

送给Python小白学习爬虫的小项目

Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比

网络爬虫之东方财富网股票板块

使用Scrapy框架编写东方财富网eastmoney的爬虫

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

python实现同花顺股票模拟交易+东方财富模拟交易

东方财富面经

python爬虫实战小项目5个及总结

10个Python完整小项目入门爬虫实例

教你用python实现34行代码爬取东方财富网信息，爬虫之路，永无止境！！

爬虫小项目（一）淘宝

python tkinter小项目

python flask 小项目

Python小项目

Python 小项目

Python基础小项目

Python爬虫与一汽项目【二】爬取中国东方电气集中采购平台

东方财经财富号爬虫流程(4) -- ip 代理池组件

爬虫：东方财富网股票数据爬取

python爬虫东方数据爬取

东方财富选股公式

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)