X系列不针对专门技术,只是一些辅助,内容零散添加。
1、为爬虫运行状态设置邮件提醒,使用python smtp、email模块完成。
from email.mime.text import MIMEText
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr,formataddr
import smtplib
msg = MIMEText('Python爬虫运行异常,异常信息为遇到HTTP 403','plain','utf-8')
def _format_addr(s):
name,addr = parseaddr(s)
return formataddr((Header(name,'utf-8').encode(), addr))
from_addr = '[email protected]'
password = 'yyy'
to_addr = '[email protected]'
smtp_server = 'smtp.126.com'
msg['From'] = _format_addr('一号爬虫 <%s>' %from_addr)
msg['To'] = _format_addr('管理员 <%s>' %to_addr)
msg['Subject'] = Header('一号爬虫运行状态','utf-8').encode()
server = smtplib.SMTP(smtp_server,25)
server.login(from_addr, password)
server.sendmail(from_addr,[to_addr],msg.as_string())
server.quit()
2、基础爬虫框架的5个模块:调度器、URL管理器、HTML下载器、HTML解析器和数据存储器。