我的第一个用python写的爬虫 - 代码天地

我的第一个用python写的爬虫

其他 2018-07-10 09:03:27 阅读次数: 0

1.安装Python环境

官网https://www.python.org/下载与操作系统匹配的安装程序，安装并配置环境变量

2.IntelliJ Idea安装Python插件

我用的idea，在工具中直接搜索插件并安装（百度）

3.安装beautifulSoup插件

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#attributes

4.爬虫程序：爬取博客园帖子的闪存内容,IT虾米网：www.itxm.cn

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import time
import bs4
 
'''ing.cnblogs.com爬虫类'''
class CnBlogsSpider:
    url = "https://ing.cnblogs.com/ajax/ing/GetIngList?IngListType=All&PageIndex=${pageNo}&PageSize=30&Tag=&_="
    #获取html
    def getHtml(self):
        request = urllib2.Request(self.pageUrl)
        response = urllib2.urlopen(request)
        self.html = response.read()
    #解析html
    def analyze(self):
        self.getHtml()
        bSoup = bs4.BeautifulSoup(self.html)
        divs = bSoup.find_all("div",class_='ing-item')
        for div in divs:
            img = div.find("img")['src']
            item = div.find("div",class_='feed_body')
            userName = item.find("a",class_='ing-author').text
            text = item.find("span",class_='ing_body').text
            pubtime = item.find("a",class_='ing_time').text
            star = item.find("img",class_='ing-icon') and True or False
            print '( 头像: ',img,'昵称: ',userName,',闪存: ',text,',时间: ',pubtime,',星星： ',star,')'
    def run(self,page):
        pageNo = 1
        while (pageNo <= page):
            self.pageUrl = self.url.replace('${pageNo}', str(pageNo))+str(int(time.time()))
            print '-------------\r\n第 ',pageNo,' 页的数据如下：',self.pageUrl
            self.analyze()
            pageNo = pageNo + 1
CnBlogsSpider().run(3)

5.执行结果

猜你喜欢

转载自blog.csdn.net/wangyayun666/article/details/80895094

我的第一个用python写的爬虫

我把我用R写的第一个爬虫就献给了国家

《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

《用python写网络爬虫》编写第一个网络爬虫

我用Java写的第一个爬虫Demo-爬图片

我的第一个使用python写的爬虫程序

我的第一个python爬虫

我的第一个Python爬虫——谈心得

Python--我的第一个爬虫

我的第一个爬虫

第一个Python爬虫

Python 第一个爬虫

python第一个爬虫

我的第一个爬虫—爬取自己在CSDN上写的文章名称及链接

用node.js写的第一个爬虫

在windows环境下用python写一个界面——第一个界面

Python爬虫入门——2. 1 我的第一个爬虫程序

写的第一个爬虫脚本_20180815

第一Python第一个爬虫项目

如何开始写你的第一个python脚本——简单爬虫入门！

学了几个小时后python后，我写的第一个python小游戏

Python爬虫之第一个爬虫

python爬虫1：第一个爬虫

学习笔记--我的第一个爬虫项目

我的第一个成功的爬虫程序

我的第一个豆瓣短评爬虫

我的第一个完整的小说爬虫

我第一个java爬虫

我的第一个爬虫和测试

Scrapy - 第一个爬虫和我的博客

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)