Python入门之字符串和正则匹配

一、字符串方法

1、替换字符

str.replace("Astr","Bstr");#A替换为B

2、去空格及特殊符号

#s为字符串，rm为要删除的字符序列
s.strip(rm); #删除s字符串中开头、结尾处，位于 rm删除序列的字符
s.lstrip(rm);#删除s字符串中开头处，位于 rm删除序列的字符
s.rstrip(rm);#删除s字符串中结尾处，位于 rm删除序列的字符

3、查找字符

#strchr(str1,str2)
# < 0 为未找到
str1 = 'strchr'
str2 = 's'
nPos = str1.index(str2)
print(nPos)

4、大小写变换

S.lower() #小写 
S.upper() #大写 
S.swapcase() #大小写互换 
S.capitalize() #首字母大写

5、追加指定长度的字符串

str1 = '12345'
str2 = 'abcdef'
n = 3
str1 += str2[0:n]
print(str1)

6、查找字符串

str1 = 'abcdefg'
str2 = 'cde'
print(str1.find(str2)) #返回字符串出现的位置

7、分割字符串

s = 'ab,cde,fgh,ijk'
print(s.split(',')) #字符串变列表

8、连接字符列表

delimiter = ','
mylist = ['Brazil', 'Russia', 'India', 'China']
print (delimiter.join(mylist))
# 输出结果：Brazil,Russia,India,China

9、截取字符串

str = '0123456789'
print (str[0:3])    #截取第一位到第三位的字符
print (str[:])      #截取字符串的全部字符
print (str[6:])     #截取第七个字符到结尾
print (str[:-3])    #截取从头开始到倒数第三个字符之前
print (str[2])      #截取第三个字符
print (str[-1])     #截取倒数第一个字符
print (str[::-1])   #创造一个与原字符串顺序相反的字符串
print (str[-3:-1])  #截取倒数第三位与倒数第一位之前的字符
print (str[-3:])    #截取倒数第三位到结尾
print (str[:-5:-3]) #逆向截取，倒数第一位与倒数第五位之间的字符，步长为3

10、字符串中的搜索和替换

S.find(substr, [start, [end]]) 
#返回S中出现substr的第一个字母的标号，如果S中没有substr则返回-1。start和end作用就相当于在S[start:end]中搜索 
S.index(substr, [start, [end]]) 
#与find()相同，只是在S中没有substr时，会返回一个运行时错误 
S.rfind(substr, [start, [end]]) 
#返回S中最后出现的substr的第一个字母的标号，如果S中没有substr则返回-1，也就是说从右边算起的第一次出现的substr的首字母标号 
S.rindex(substr, [start, [end]]) 
S.count(substr, [start, [end]]) #计算substr在S中出现的次数 
S.replace(oldstr, newstr, [count]) 
#把S中的oldstar替换为newstr，count为替换次数。这是替换的通用形式，还有一些函数进行特殊字符的替换 
S.strip([chars]) 
#把S中前后chars中有的字符全部去掉，可以理解为把S前后chars替换为None 
S.lstrip([chars]) 
S.rstrip([chars]) 
S.expandtabs([tabsize]) 
#把S中的tab字符替换没空格，每个tab替换为tabsize个空格，默认是8个

11、编码和解码格式

S.encode([encoding,[errors]]) 
# 其中encoding可以有多种值，比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为"strict"，意思是UnicodeError。可能的值还有'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 和所有的通过codecs.register_error注册的值。这一部分内容涉及codecs模块，不是特明白 
S.decode([encoding,[errors]])

12、字符串测试和判断

S.startswith(prefix[,start[,end]]) 
#是否以prefix开头 
S.endswith(suffix[,start[,end]]) 
#以suffix结尾 
S.isalnum() 
#是否全是字母和数字，并至少有一个字符 
S.isalpha() #是否全是字母，并至少有一个字符 
S.isdigit() #是否全是数字，并至少有一个字符 
S.isspace() #是否全是空白字符，并至少有一个字符 
S.islower() #S中的字母是否全是小写 
S.isupper() #S中的字母是否便是大写 
S.istitle() #S是否是首字母大写的

13、类型转换

string.atoi(s[,base]) 
#base默认为10，如果为0,那么s就可以是012或0x23这种形式的字符串，如果是16那么s就只能是0x23或0X12这种形式的字符串 
string.atol(s[,base]) #转成long 
string.atof(s[,base]) #转成float

！注意：字符串对象是不可改变的，也就是说在python创建一个字符串后，你不能把这个字符中的某一部分改变。任何上面的函数改变了字符串后，都会返回一个新的字符串，原字串并没有变。变通方法：可以用S=list(S)这个函数把S变为由单个字符为成员的list，这样的话就可以使用S[3]='a'的方式改变值，然后再使用S=" ".join(S)还原成字符串。

二、正则语法

三、re.match()、re.search()和re.findall()的区别

1、re.match

re.match() 总是从字符串“开头”去匹配，并返回匹配的字符串的match对象

str1 = 'Hello World!'
print(re.match(r'e',str1))
#返回结果:none

2、re.search()

re.search()函数将对整个字符串进行搜索，并返回第一个匹配的字符串的match对象

str1 = 'Hello World!'
print(re.search(r'e',str1))
#输出结果：<_sre.SRE_Match object; span=(1, 2), match='e'>

re.search()和re.match()函数返回match对象包括分组时，group(0)返回【完整匹配】的字符串，group(1)及以上分别返回各分组字符串。groups()函数返回各分组组成的元组对象。

3、re.findall()

re.findall()函数将返回一个 所有匹配 的字符串的字符串列表

str1 = 'Hello World!'
re.findall(r'e',str1)
#输出结果：['e']

四、正则匹配

1、pattern

pattern = re.compile(r'[\u4e00-\u9fa5]+');#匹配中文字符
result = javapattern.findall(sourcefile)

2、贪婪和非贪婪匹配

str = "a123b456b"

print re.findall(r"a(.+?)b", str)
#输出['123']#?控制只匹配0或1个,所以只会输出和最近的b之间的匹配情况

print re.findall(r"a(.+)b", str)
#输出['123b456']

print re.findall(r"a(.*)b", str)
#输出['123b456']

3、多行匹配

多行匹配，需要加上re.S和re.M标志. 加上re.S后, .将会匹配换行符，默认.不会匹配换行符.

str = "a23b\na34b"

re.findall(r"a(\d+)b.+a(\d+)b", str)
#输出[]
#因为不能处理str中间有\n换行的情况

re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)
#s输出[('23', '34')]

re.findall(r"^a(\d+)b", str)
#输出['23']

re.findall(r"^a(\d+)b", str, re.M)
#输出['23', '34']

Python入门之字符串和正则匹配

猜你喜欢