努力学代码1 - 代码天地

努力学代码1

其他 2018-05-30 17:52:37 阅读次数: 0

第一个写一个爬网站文章标题的Python程序

使用模块为requests bs4

# -*- coding:utf-8 -*-

import requests
from bs4 import BeautifulSoup


r = requests.get("https://www.sec-wiki.com/")

soup = BeautifulSoup(r.text,'html.parser')
content_list = soup.find_all('a',attrs={'rev':'news'})

for content in content_list:
    if len(content.text) < 10:
        pass
    else:
        print content.text

代码虽然不长，但是对新人入手还是有所帮助的

首先导入模块什么的不用说了

这里主要记录一下如何使用beautifulesoup取得文章标题

打开chrome

可以看到代码这里使用find_all函数取得所有的匹配结果，我们需要关注的是这里

('a',attrs={'rev':'news'})

　　a代表的是标签。而attrs对应的则是这个标签下的属性

那么rev则为属性 news为属性的值

然后我们使用对象.text将标题输出出来

还有就是看我的这里

len(content.text) < 10

为什么呢因为这里会匹配到其他的

所以

可以思考的

https://www.tuicool.com/articles/Y3MVz2R#c-30458

这里的

import requests # 导入网页请求库
from bs4 import BeautifulSoup # 导入网页解析库

# 传入URL
r = requests.get('https://www.csdn.net/')

# 解析URL
soup = BeautifulSoup(r.text, 'html.parser')
content_list = soup.find_all('div', attrs = {'class': 'title'})

for content in content_list:
    print(content.h2.a.text)

他的主要的一段是

content.h2.a.text

那么我们来打开网站源码看一看

可以看到这里的每一个都在子标签下

但是secwiki就不一样了

如果我这里用上面的话我不知道应该这个span应该怎么取

我试着和csdn写的一样但是报错了。。这里的问题先放下

就先这样。。。

猜你喜欢

转载自www.cnblogs.com/xm17/p/9112230.html

努力学代码1

努力学Python！

努力学习

努力学模电！

努力学习吧！

继续努力学习

努力学习的意义

物理复习1力学

材料力学（1）

小小一码农，天天努力学

励志的文章，搞技术的要时刻努力学习

Python努力学习第二天

Python努力学习第一天

当年努力学的，现在都快要忘记的几首唐诗

努力学习第十天

增加知识储备，努力学习才能更强

重要转折地，努力学习中！

大学四年努力学好编程

努力的回报1

工程力学：静力学 1（直觉+应用）

力学

越努力越幸运--1

努力学习却不能提高的症结所在

个人计划:打算年后开始努力学习的几个技术方向

努力学习IT编程用成就赢得梦寐以求的妹子[图]

只要肯努力学习，人人可以成为技术大牛。

学习计划之html5.......努力学习中

【好文章分享】努力学习到底为了什么？

开挂的财务不仅要靠努力学习，还需要RPA

一个为了升职加薪而努力学习PMP的经验分享

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)