python爬虫系列X--小知识汇总

X系列不针对专门技术,只是一些辅助,内容零散添加。

1、为爬虫运行状态设置邮件提醒,使用python smtp、email模块完成。

from email.mime.text import MIMEText
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr,formataddr
import smtplib


msg = MIMEText('Python爬虫运行异常,异常信息为遇到HTTP 403','plain','utf-8')


def _format_addr(s):
    name,addr = parseaddr(s)
    return formataddr((Header(name,'utf-8').encode(), addr))


from_addr = '[email protected]'
password = 'yyy'
to_addr = '[email protected]'
smtp_server  = 'smtp.126.com'


msg['From'] = _format_addr('一号爬虫 <%s>' %from_addr)
msg['To'] = _format_addr('管理员 <%s>' %to_addr)
msg['Subject'] = Header('一号爬虫运行状态','utf-8').encode()


server = smtplib.SMTP(smtp_server,25)
server.login(from_addr, password)
server.sendmail(from_addr,[to_addr],msg.as_string())

server.quit()


2、基础爬虫框架的5个模块:调度器、URL管理器、HTML下载器、HTML解析器和数据存储器。

猜你喜欢

转载自blog.csdn.net/chenkaifang/article/details/80602007