进程池与回调函数与正则表达式和re爬虫例子 - 代码天地

进程池与回调函数与正则表达式和re爬虫例子

其他 2018-10-23 21:45:01 阅读次数: 0

# 使用进程池的进程爬取网页内容，使用回调函数处理数据，用到了正则表达式和re模块

import re
from urllib.request import urlopen
from multiprocessing import Pool

def get_page(url,pattern):
    response=urlopen(url).read().decode('utf-8')
    return pattern,response   # 返回正则表达式编译结果 网页内容

def parse_page(info):
    pattern,page_content=info    # 接收到正则表达式编译结果，与网页内容
    res=re.findall(pattern,page_content)    # 调用re模块的方法，用正则匹配到网页的内容
    for item in res:
        dic={
            'index':item[0].strip(),
            'title':item[1].strip(),
            'actor':item[2].strip(),
            'time':item[3].strip(),
        }
        print(dic)
if __name__ == '__main__':
    regex = r'<dd>.*?<.*?class="board-index.*?>(\d+)</i>.*?title="(.*?)".*?class="movie-item-info".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>'
    pattern1=re.compile(regex,re.S)    # 将正则表达式编译后存到变量中
    url_dic={'http://maoyan.com/board/7':pattern1}    # 一个url对应一个正则
    p=Pool()
    res_l=[]
    for url,pattern in url_dic.items():
        res=p.apply_async(get_page,args=(url,pattern),callback=parse_page)
        res_l.append(res)

    for i in res_l:
        i.get()

猜你喜欢

转载自www.cnblogs.com/whylinux/p/9839467.html

进程池与回调函数与正则表达式和re爬虫例子

re和正则表达式

python爬虫的re库（正则表达式匹配）

Python爬虫--- 1.4 正则表达式：re库

【Python爬虫】正则表达式与re模块

# 正则表达式 -- re模块爬虫基础 # 15

Python爬虫 Regex(正则表达式): re module

【爬虫】三、正则表达式-re入门

python爬虫-re正则表达式

Python爬虫速成------正则表达式及re库

Python爬虫速成------正则表达式及re库

网络爬虫：Re库与正则表达式

【re正则表达式】------- PYTHON爬虫基础1

python正则表达式替换函数中的回调函数

Python爬虫之正则表达式和re模块

正则表达式03-re常用函数

Python正则表达式和Re库

正则表达式和 re 模块

正则表达式r和re

re模块和正则表达式

python之re模块和正则表达式

Python的正则表达式和re模块

正则表达式和python的re模块

正则表达式和re模块

pandas和re中正则表达式的意思

正则表达式：re模块简介和深入

正则表达式和python中的re模块

正则表达式和re模块1

re 模块和正则表达式

re库和正则表达式

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)