Python脱产8期 Day20 2019/5/9

一标准三流

1.标准输入流
import sys
# sys.stdin：input的底层
res = sys.stdin.readline()

2.标准输出流
# sys.stdout：print的底层
sys.stdout.write('输出的信息\n')

3.标准错误输出流
# sys.stderr：异常及logging默认打印方式的底层
sys.stderr.write('输出的信息\n')

##标准错误输出流和和标准输出流没有太大区别，主要是字体的颜色

二 logging模块

# 操作日志的模块
# 日志：日常的流水，将程序运行过程中的状态或数据进行记录，一般都是记录到日志文件中
# 在正常的项目中，项目运行的一些打印信息，采用looging打印到文件中，这个过程就称之为记录日志

# 1.一共分为五个打印级别
# 2.级别本身没有代表信息重要性的区别，只是包含级别信息，可以约定日志的重要性
logging.debug("debug")
logging.info("info")
logging.warning("warning")
logging.error("error")
logging.critical("critical")
##3.Handler句柄：控制输出的位置
4.Formater格式：控制输出的格式
5.一个句柄只可以与一种格式绑定

可在logging.basicConfig()函数中可通过具体参数来更改logging模块默认行为，可用参数有
filename：用指定的文件名创建FiledHandler（后边会具体讲解handler的概念），这样日志会被存储在指定的文件中。
filemode：文件打开方式，在指定了filename时使用这个参数，默认值为“a”还可指定为“w”。
format：指定handler使用的日志显示格式。
datefmt：指定日期时间格式。
level：设置rootlogger（后边会讲解具体概念）的日志级别
stream：用指定的stream创建StreamHandler。可以指定输出到sys.stderr,sys.stdout或者文件，默认为sys.stderr。若同时列出了filename和stream两个参数，则stream参数会被忽略。

loggin四大成员

# 1.新建打印者
logger = logging.getLogger("Owen")

# 2.创建句柄：输出的位置
stream_handler = logging.StreamHandler()
a_file_handler = logging.FileHandler('a.log')
b_file_handler = logging.FileHandler('b.log')

# 3.打印者绑定句柄
logger.addHandler(stream_handler)
logger.addHandler(a_file_handler)
logger.addHandler(b_file_handler)

# 4.设置格式
fmt1 = logging.Formatter('%(asctime)s - %(msg)s')
fmt2 = logging.Formatter('%(asctime)s [%(name)s] - %(msg)s')

# 5.为句柄绑定输出格式
stream_handler.setFormatter(fmt1)
a_file_handler.setFormatter(fmt1)
b_file_handler.setFormatter(fmt2)

logger.critical('msg')

多输出者

import logging
# 1.创建logger
log1 = logging.getLogger('Owen')
log2 = logging.getLogger('Zero')
r_log = logging

# 2.logger设置级别
log1.setLevel(logging.DEBUG)

# 3.设置句柄
h1 = logging.StreamHandler()

# 4.设置句柄级别：
# 1）系统句柄默认级别warning，
# 2）自定义的句柄级别默认同logger，也可以在logger基础上在加以限制
h1.setLevel(logging.DEBUG)

# 5.logger添加句柄
log1.addHandler(h1)

# log1可以打印DEBUG以上的信息，但往不同位置打印，采用不同句柄的二次级别限制
h2 = logging.FileHandler('c.log')
h2.setLevel(logging.WARNING)
log1.addHandler(h2)


log1.debug('debug')
log1.info('info')
log1.warning('warning')
log1.error('error')
log1.critical('critical')

log2.critical('00000')

r_log.critical('00000')

re模块

# 正则：是有语法的字符串，用来匹配目标字符串的

# 将目标字符串中的所以数字找出

data = '123abc呵呵'

res = re.findall(r'\d', data)  # \d就代表数字

print(res)  # ['1', '2', '3']

单个字符


# re.I不区分大小写的匹配
print(re.findall(r'a', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'a', 'A']

# a|b a或b单个字符
print(re.findall(r'a|b', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'b', 'a', 'b', 'A', 'B']

# [a,b] a或,或b单个字符
print(re.findall(r'[a,b]', 'abc,123嘿嘿abcABC', flags=re.I))  # ['a', 'b', ',', 'a', 'b', 'A', 'B']

# [^ab]非a及非b的所有单个字符
print(re.findall(r'[^ab]', 'abc,123嘿嘿abcABC'))  # ['c', ',', '1', '2', '3', '嘿', '嘿', 'c', 'A', 'B', 'C']

# [a-z]所有单个小写字母   [A-Z]所有单个大写字母   [0-9]所有单个数字
print(re.findall(r'[a-z]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', 'a', 'b', 'c']
print(re.findall(r'[0-9]', 'abc,123嘿嘿abcABC'))  # ['1', '2', '3']

# 所有小写大写数字单个字符
print(re.findall(r'[a-z]|[A-Z]|[0-9]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

print(re.findall(r'[A-Za-z0-9]', 'abc,123嘿嘿[abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

# .会匹配除\n以为的所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t'))  # ['*', '\\', '_', '+', '=', ' ', '\r', '\t']

# re.S会让.能匹配所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t', flags=re.S))  # ['*', '\\', '_', '+', '=', '\n', ' ', '\r', '\t']

# \d单个数字 == [0-9]
print(re.findall(r'\d', 'abc,123嘿嘿[abcABC'))  # ['1', '2', '3']
# \w == [A-Za-z0-9_] 将常见的汉字就理解为单个字母

print(re.findall(r'\w', 'abc,123嘿[_'))  # ['a', 'b', 'c', '1', '2', '3', '嘿', '_']
# \s == [\f\n\r\t\v ] 单个空：空格、制表符、换页符等

print(re.findall(r'\s', '\f\n\r\t\v '))  # ['\x0c', '\n', '\r', '\t', '\x0b', ' ']

# \D就是\d的对立面：非数字的所有单个字符 \W就是\w的对立面 \S就是\s的对立面
print(re.findall(r'\D', 'abc,123嘿[_'))  # ['a', 'b', 'c', ',', '嘿', '[', '_']


# 单个汉字 [\u4e00-\u9fa5]
print(re.findall(r'[\u4e00-\u9fa5]', 'abc,123嘿[_'))  # ['嘿']

# 建议使用 [0-9] [A-Za-z0-9_] [\f\n\r\t\v ] [^0-9] [\u4e00-\u9fa5]
# 不建议使用 \d   \w   \s   \D   \w

正则匹配步骤

# 1.将r'\\'的正则语法字符串转换成正则对象 '\', 用来匹配 '\' 字符的
# 2.拿着转换后的正则对象，来匹配目标字符串

多个字符

# 明确个数的重复
# {n}

print(re.findall(r'a{2}', 'aaabbb')) # ['aa']

# {n,} 匹配n到无数个，题中最少匹配abb, 贪婪匹配 abbb 能被匹配为 abb 和 abbb，优先匹配多的
print(re.findall(r'ab{2,}', 'ababbabbbabbbb')) # ['abb', 'abbb', 'abbbb']

# {,n} 匹配0到n个，ab{,2} 优先匹配abb，没有ab也行，如果还没有a也将就
print(re.findall(r'ab{,2}', 'aababbabbbabbbb')) # ['a', 'ab', 'abb', 'abb', 'abb']

# {n,m} 匹配n到m个，ab{1,3} 优先匹配 abbb，再考虑abb, ab
print(re.findall(r'ab{1,3}', 'aababbabbbabbbb')) # ['ab', 'abb', 'abbb', 'abbb']

# 特殊符号的重复
# *: 匹配0到无数个
print(re.findall(r'ab*', 'aababbabbbabbbb')) # ['a', 'ab', 'abb', 'abbb', 'abbbb']
# +: 匹配1到无数个
print(re.findall(r'ab+', 'aababbabbbabbbb')) # ['ab', 'abb', 'abbb', 'abbbb']
# ?: 匹配0到1个
print(re.findall(r'ab?', 'aababbabbbabbbb')) # ['a', 'ab', 'ab', 'ab', 'ab']

# 需求：匹配所以单词
print(re.findall(r'[a-z]+', 'abc def hello print')) # ['abc', 'def', 'hello', 'print']
print(re.findall(r'[a-z]+\b', 'abc def hello print')) # ['abc', 'def', 'hello', 'print']

# \b代表单词边界，用空格(字符串的结尾也包括)作为匹配规则
print(re.findall(r'[a-z]*c', 'abc def hello print acb zc')) # ['abc', 'ac', 'zc']
print(re.findall(r'[a-z]*c\b', 'abc def hello print acb zc')) # ['abc', 'zc']

多行匹配

import re
s = """http://www.baidu.com
https://sina.com.cn
https://youku.com
haam
abchttp://www.oldboy.com
"""
# ^代表以什么开头，$代表以什么结尾，必须结合flags=re.M来完成多行匹配
print(re.findall(r'^http.+com$', s, re.M))  # ['http://www.baidu.com', 'https://youku.com']

分组

# ()代表分组

# findall匹配，如果匹配规则用有分组语法，只存放分组结果

url = 'https://www.baidu.com, http://www.youku.com'
# 需求：拿到url的域名的 baidu , youku
print(re.findall(r'www.([a-z]+).com', url)) # ['baidu', 'youku']

# 分组的编号：分组的顺序编号按照左括号的前后顺序

# findall是全文匹配，可以从任意位置开始，匹配多次
# match非全文匹配，必须从头开始匹配，只能匹配一次

# 专门处理分组的方法：分组，分组编号，有名分组，取消分组
# 取消分组: 必须写()，但是()为分组语法，我们只是想通过()将一些数据作为整体，所以()必须，再取消分组即可
# (?:) 取消分组只是作为整体 (?P<名字>) 有名分组

url = 'www.baidu.com,www.youku.com'
res = re.match(r'((?:www).(?P<name>[a-z]+).com)', url)
# print(res) # <_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'>
print(res.group(1)) # www.baidu.com
print(res.group(2)) # baidu
print(res.group('name')) # baidu

拆分与替换

 正则拆分
s = 'a b,ac@def'
print(re.split(r'[ ,@]', s))  # ['a', 'b', 'ac', 'def']

替换
s = 'python abc python'
print(re.sub('python', 'Python', s))  # Python abc Python
print(re.sub('python', 'Python', s, count=1))  # Python abc python

# 结合分组可以完成信息的重组与替换
s = 'day a good!!!'  # 'a good good day'
print(re.sub('(day) (a) (good)', r'today is \2 \3 \3 \1', s))  #today is a good good day!!!