用python 来炒股二 BeautifulSoup爬虫信息新闻文章 - 代码天地

用python 来炒股二 BeautifulSoup爬虫信息新闻文章

其他 2020-03-16 10:00:58 阅读次数: 0

使用python 炒股，最先要用的是数据收集，下文用爬取新闻实例来简述

数据获取

1. 打开指定得财经资讯网站，例如中证时报：http://stock.stcn.com/dapan/index.shtml

2. 建议用chrome浏览器来分析网站结构，指定需要提取的文章列表

分析可得路径：

<head> , <body>, <div>'' ,<div>''' .... <li> <a>

此处路径较深，又涉及多重定位，若用find 只查一次，而用find_all 可查询多次，使用find_all 更合理。

多层嵌套div，要想提取下层的内容，有多种方法，这里例举常用的：

可以用最后一个 name='ul',attrs={'class':"news_list2"}，也可以使用 name='div',attrs={'class':"content clearfix"}

假设第一层的 tag = 搜索结果

再来定位第二层的文章 sub_tag find in tag

如果网页的数据中，都是文章，简单提取的方式如：

soup.find_all("a")   #在所有数据中找节点a

　　但结果往往不如意，因为常常会遇到其他广告或者推荐文章列表也显示进来。需要用if 或者for 条件来筛选，或者用正则方式匹配

代码示例

1.新建 .py 文件，导入BS

from bs4 import BeautifulSoup
import requests
import time
import json

url = 'http://stock.stcn.com/dapan/index.shtml'
wb_data = requests.post(url)
soup = BeautifulSoup(wb_data.content,'lxml')

2. for 循环定位文章节点　　

这种写法得优势：

- 避免用if 时多增加临时变量，节省内存开辟空间。即使这个<DIV> 是多个单中嵌套

- 用双重for 来查询定位时采用子类方式，迭代生成也节约了空间

- 特别说明，此时的路径虽然唯一，但是用 find_all 而不同find 是因为考虑到find 查询返回的结果不利于后续的操作，给后续嵌套的for 循环带来方便

for tag in soup.find_all(name='ul',attrs={'class':"news_list2"}):
    for sub in tag.find_all("a"):
        print(sub)

3.显示结果：

于是对数据进行筛选，如果只保留文章标题

for tag in soup.find_all(name='ul',attrs={'class':"news_list2"}):
	for sub in tag.find_all("a"):
		print(sub.string)   #因为sub仍然是个子对象tag，使用string 来提取字符串信息

猜你喜欢

转载自www.cnblogs.com/nerocm/p/12501972.html

用python 来炒股二 BeautifulSoup爬虫信息新闻文章

爬虫二：用BeautifulSoup爬取南方周末新闻

使用python 来实现炒股

Python BeautifulSoup 爬虫入门笔记 --- 新闻爬虫

python爬虫---实现项目(四) 用BeautifulSoup分析新浪新闻数据

Alfred Workflow Python BeautifulSoup爬虫浏览网易新闻头条

python爬虫基础Ⅰ——requests、BeautifulSoup：书本信息

python爬虫之路（二）-----beautifulsoup库详解

python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息

Python爬虫（一）：用 Requests + BeautifulSoup 爬取网站上的信息

「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息

Python BeautifulSoup采集新闻

用python 来获取当前电脑及python的信息

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

在Linux用Python写爬虫（二）

python爬虫【二】爬取新闻

竟然可以用python炒股？

基于python爬虫的热点时事新闻文章采集

python beautifulsoup简用

Python｜教你用 Python 来朗读网页，上班听新闻就是爽！

python爬虫二:bs4库中的BeautifulSoup模块

Python爬虫之BeautifulSoup库(二)：对象的种类

python数据分析之爬虫二：BeautifulSoup库

Python从零开始写爬虫（二）BeautifulSoup库使用

Python 从零开始爬虫(二)：BeautifulSoup解析网页

Python爬虫基础（二）--beautifulsoup-美丽汤框架介绍

Python爬虫精简步骤6 用BeautifulSoup提取数据

Python爬虫精简步骤5 用BeautifulSoup解析数据

Python爬虫：用BeautifulSoup进行NBA数据爬取

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)