Python爬虫学习---正则抓取内涵段子 - 代码天地

Python爬虫学习---正则抓取内涵段子

其他 2018-07-18 05:10:08 阅读次数: 0

#coding: utf-8
'''
Python2.7
bo 2018-06-02 22:28:00
'''
import urllib2
import re
from multiprocessing.pool import Pool

class Spider:
    def __init__(self,max):
        self.enable = True
        self.page = 1
        self.max = max

    def loadPage(self,page):
        url = 'http://www.neihan8.com/article/list_5_'+ str(page) + '.html'
        user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5221.400 QQBrowser/10.0.1125.400'
        headers = {'User-Agent':user_agent}
        req = urllib2.Request(url,headers=headers)
        response = urllib2.urlopen(req)
        html = response.read()

        gbk_html = html.decode('gbk').encode('utf-8')

        pattern = re.compile('<h4>.*?html">(.*?)</a>.*?</h4>'+
                             '.*?<div class="f18 mb20">(.*?)</div>',re.S)
        item_list = pattern.findall(gbk_html)
        return item_list
    def printOnePage(self,item_list):
        for item in item_list:
            self.writeToFile("---------------------------------------------------------------")
            self.writeToFile('T:' + re.sub(r'<.*?>|&.*?;|\s+|　','',item[0]) + "\n")
            self.writeToFile('C:' +  re.sub(r'<.*?>|&.*?;|\s+|　','',item[1]))
    def writeToFile(self,content):
        with open('MyStory.txt', 'a') as f:
            f.write(content + "\n")
            f.close()

    def doWork(self):
        while self.enable:
            try:
                item_list = self.loadPage(self.page)
            except urllib2.URLError,e:
                print e.reason
                continue

            self.printOnePage(item_list)
            print('抓取第%d页成功'%self.page)
            if self.page == self.max:
                self.enable = False
                print('爬取完毕...')
                break

            self.page += 1

def main(count):
    mySpider = Spider(count)
    mySpider.doWork()

if __name__ == '__main__':

    pool = Pool()
    pool.map(main,[1])

猜你喜欢

转载自blog.csdn.net/u010314160/article/details/80552178

Python爬虫学习---正则抓取内涵段子

python爬虫--正则爬取内涵段子文字

使用正则的内涵段子爬虫案例

案例_(单线程)使用正则的内涵段子爬虫

对内涵段子正则的提取

怎么爬虫抓取段子

爬虫内涵段子贴吧内容

Python爬虫之爬取内涵吧段子（urllib.request）

python内涵段子爬取练习

【爬虫入门】【正则表达式】抓取糗事百科的段子3.0

【爬虫入门】【正则表达式】抓取糗事百科的段子2.0

从内涵段子到iphone

Python爬虫实战（一）：抓取糗事百科网的段子

Python爬虫学习---正则抓取猫眼视频Top100信息

python爬虫（爬取段子）

python学习笔记——爬虫的抓取策略

python爬虫学习：分布式抓取

python爬虫学习之贴吧抓取

python爬虫学习之小说抓取2

【爬虫入门】抓取糗事百科的段子1.0

python爬虫-糗事百科段子

Python爬虫糗百段子

Python爬虫段子网全代码

Python学习之爬虫07-糗事百科段子爬取

【Python学习之旅】---爬虫（xpath表达式，爬取网络段子和贴吧图片）

Python学习教程：Python爬虫抓取技术的门道

内涵段子爬取及re匹配

列表中播放 videoview 仿内涵段子

通过抓包获取内涵段子的接口

PythonScript_004_正则匹配_抓取静态网页(内涵吧)的图片

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)