Python写一个简单的爬虫样例（不超过50行代码） - 代码天地

Python写一个简单的爬虫样例（不超过50行代码）

编程语言 2018-11-01 08:51:08 阅读次数: 0

###写在题外的话

爬虫，我还是大三的时候,第一次听说，当时我的学姐给我找的一个勤工俭学的项目，要求是在微博上爬出感兴趣的信息，结果很遗憾，第一次邂逅只是擦肩而过。然后，时间来到4年后的研二，在做信息检索作业时，老师让选择一个自己感兴趣的主题，于是，第二次不期而遇。这次相遇，我本以为自己不会轻易放手，结果依然是无疾而终。直到，今天，我变成了一个人，再次相遇，我不再路过。然后，才发现，原来做一个爬虫并不难，我一直都Too young, too simple.一句话，想做爬虫，就来吧，Seize the day.

一、python爬虫综述

一个简单的爬虫，两部分组成，下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫，大家可以用来参考。

二、python爬虫开发环境的搭建

开发环境：python2.7(win10-64)

开发IDE：pycharm最新版，就OK

使用到的工具包：setuptools, pip, chardet, certifi, idna, lxml, urllib3, requests, beautifulsoup, bs4所有用到的这些包我都打包放在了我的资源里，大家可以去下载，或者，直接在网上下载最新的python工具包。

[python2.7_win10爬虫开发环境工具包.zip]

三、pythonIDE的安装

使用pycharm进行python的项目，在网上很容易下载到，在注册的时候，可以使用关键字（pycharm,2017,注册码），给大家一个参考。[pyCharm最新2017激活码]

四、源代码

# coding=utf-8

import requests
from bs4 import BeautifulSoup

# 获取html文档
def get_html(url):
    """get the content of the url"""
    response = requests.get(url)
    response.encoding = 'utf-8'
    return response.text
    
# 获取笑话
def get_certain_joke(html):
    """get the joke of the html"""
    soup = BeautifulSoup(html, 'lxml')
    joke_content = soup.select('div.content')[0].get_text()

    return joke_content

url_joke = "https://www.qiushibaike.com"
html = get_html(url_joke)
joke_content = get_certain_joke(html)
print joke_content

猜你喜欢

转载自blog.csdn.net/wsbxzz1/article/details/72979643

Python写一个简单的爬虫样例（不超过50行代码）

用python60行代码写一个简单的笔趣阁爬虫！三分一章？

一个简单的死锁样例

40 行 Python 代码，写一个 CPU！

ABAP--一个读取EXCEL单元格的内容超过256个字符的代码样例

Python怎样写一个简单的爬虫

50行代码写的一个插件，破解一个H5小游戏

不写一行代码即可运行一个应用

Python 3.7 实现一个简单爬虫，简单爬数据，抓取数据，一行行代码教程你，总能教会你

golang写一个简单的爬虫

写一个简单的爬虫

用50行Python代码从零开始实现一个AI平衡小游戏！

50 行 Python 代码制作一个数据大屏

Python——网络爬虫，一个简单的通用代码框架

50行ruby代码开发一个区块链

python代码写一个简单的iwanna游戏

Python爬虫--一个简单的爬虫

java 60 行代码写一个简单可用的并且带过期时间的内存缓存

几十行代码写一个简单的文件下载器

IOS - MVVM + ReactiveCocoa 一个简单的登录样例

你用过不写代码就能完成一个简单模块的组件么？

一个简单的爬虫例子（代码）

奇思妙想，用ChatGPT写代码怎么样呢？来看看写一个简单的Android apk

Python3，爬虫有多简单，一个库，一行代码，就OK，你确定不来试试？

500 行 Python 代码构建一个轻量级爬虫框架

Python scrapy框架用21行代码写出一个爬虫

Python爬虫教程：200行代码实现一个滑动验证码

十行代码--用python写一个USB病毒 (知乎 DeepWeaver)

十行代码——用python写一个USB病毒

用40行python代码写一个桌面翻译器

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)