Python 入门笔记5——字符串

字符串

字符串基本特点

  字符串的本质是:字符序列。Python 的字符串是不可变的,我们无法对原字符串做任何修改。但可以将原字符串通过字符串支持的方法修改后赋值给新的变量中,达到“看起来修改”的效果。
  Python 不支持单字符类型,单字符也是作为一个字符串使用的。

字符串的编码

  Python3 直接支持 Unicode,可以表示世界上任何书面语言的字符。Python3 的字符默认就是 16 位 Unicode 编码,ASCII 码是 Unicode 编码的子集。
  使用内置函数 ord()可以把字符转换成对应的 Unicode 码;
  使用内置函数 chr()可以把十进制数字转换成对应的字符。

代码示例:

>>> ord("a")
97
>>> chr(97)
'a'

引号创建字符串

  我们可以通过单引号或双引号创建字符串。例如:a=’abc’。
  使用两种引号的好处是可以创建本身就包含引号的字符串,而不用使用转义字符。

代码示例:

>>> a = "I'm a teacher!"
>>> print(a)
I'm a teacher!
>>> b = 'my_name is "JACK"'
>>> print(b)
my_name is "JACK"

  连续三个单引号或三个双引号,可以帮助我们创建多行字符串。

代码示例:

>>>a = """
name="jack"
company="xyz"
age=25
"""
>>>print(a)
name="jack"
company="xyz"
age=25

空字符串和 len()函数

  Python 允许空字符串的存在,不包含任何字符且长度为 0。

代码示例:

>>> al = ""
>>> len(al)
0

  len()用于计算字符串含有多少字符。

代码示例:

>>> a = "haohaoxuexi"
>>> len(a)
11

转义字符

  我们可以使用“+特殊字符”,实现某些难以用字符表示的效果。比如:换行等。常见的转义字符有这些:

转义字符 描述
\(在行尾时) 续行符
\\ 反斜杠符号
\’ 单引号
\" 双引号
\b 退格(Backspace)
\n 换行
\t 横向制表符
\r 回车

代码示例:

>>> a = 'I\nlove\nU'
>>> print(a)
I
love
U
>>> print('aaabb\
cddcd')
aaabbcddcd
>>> print('I\'m Russell')
I'm Russell

字符串拼接

  可以使用+将多个字符串拼接起来。例如:’aa’+ ’bb’ ==>’aabb’。
(1) 如果+两边都是字符串,则拼接。
(2) 如果+两边都是数字,则加法运算。
(3) 如果+两边类型不同,则抛出异常。

代码示例:

>>> "a"+"b"
'ab'
>>> 1+1
2
>>> 1+"a"
Traceback (most recent call last):
  File "<pyshell#21>", line 1, in <module>
    1+"a"
TypeError: unsupported operand type(s) for +: 'int' and 'str'

  可以将多个字面字符串直接放到一起实现拼接。

代码示例:

>>> "aa""bb"
'aabb'

字符串复制

  使用*可以实现字符串复制。

代码示例:

>>> "aa"*3
'aaaaaa'

不换行打印

  调用 print 时,会自动打印一个换行符。因为end的默认值是\n,在不想换行时需要将参数end的值修改为其他任意字符串,如‘ ’,‘##’等。

代码示例:


>>> for i in range(5):
	print("aaa")#不修改参数end时
	
aaa
aaa
aaa
aaa
aaa
>>> for i in range(5):
	print("aaa",end=" ")#修改参数end时

aaa aaa aaa aaa aaa 

从控制台读取字符串

  我们可以使用 input()从控制台读取键盘输入的内容。

代码示例

>>> myname = input("请输入名字:")
请输入名字:Russell
>>> myname
'Russell'

数字转字符串

  str()可以帮助我们将其他数据类型转换为字符串。

代码示例:

>>> str(98)
'98'
>>> str(True)
'True'
>>> str(3.14e10)
'31400000000.0'

  当我们调用 print()函数时,解释器自动调用了 str()将非字符串的对象转成了字符串。

字符提取

  字符串的本质就是字符序列,我们可以通过在字符串后面添加[],在[]里面指定偏移量,可以提取该位置的单个字符。
  正向搜索:最左侧第一个字符,偏移量是 0,第二个偏移量是 1,以此类推。直到 len(str)-1为止。
  反向搜索:最右侧第一个字符,偏移量是-1,倒数第二个偏移量是-2,以此类推,直到-len(str)为止。

代码示例:

>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a[1]
'b'
>>> a[-25]
'b'
>>> a[-2]
'y'
>>> a[24]
'y'
>>> a[-30]
Traceback (most recent call last):
  File "<pyshell#45>", line 1, in <module>
    a[-30]
IndexError: string index out of range

字符串替换

  字符串是“不可改变”的,我们通过[]可以获取字符串指定位置的字符,但是我们不能改变字符串。我们尝试改变字符串中某个字符,就会报错。

代码示例:

>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a[1]='R'
Traceback (most recent call last):
  File "<pyshell#47>", line 1, in <module>
    a[1]='R'
TypeError: 'str' object does not support item assignment

  字符串不可改变。但是,我们确实有时候需要替换某些字符。这时,只能通过创建新的字符串来实现。

代码示例:

>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a = a.replace(a[1],"R")
>>> a
'aRcdefghijklmnopqrstuvwxyz'

  整个过程中,实际上我们是创建了新的字符串对象,并指向了变量 a,而不是修改了以前的字符串。

字符串切片 slice 操作

  切片 slice 操作可以让我们快速的提取子字符串。标准格式为:

[起始偏移量 start:终止偏移量 end:步长 step]   切片操作时,起始偏移量和终止偏移量不在[0,字符串长度-1]这个范围,也不会报错。起始偏移量小于 0 则会当做 0,终止偏移量大于“长度-1”会被当成-1。

代码示例:

>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a[1:3:1]
'bc'
>>> a[1:10:2]
'bdfhj'
>>> a[-5:-1:1]
'vwxy'
>>> a[-5:]
'vwxyz'
>>> a[-28::-1]
''
>>> a[-28::1]
'abcdefghijklmnopqrstuvwxyz'
>>> a[-1:100:]
'z'
>>> a[1:100:]
'bcdefghijklmnopqrstuvwxyz'
>>> a[26:1:-1]
'zyxwvutsrqponmlkjihgfedc'
>>> a[26::-1]
'zyxwvutsrqponmlkjihgfedcba'

split()分割和 join()合并

  split()可以基于指定分隔符将字符串分隔成多个子字符串(存储到列表中)。如果不指定分隔符,则默认使用空白字符(换行符/空格/制表符)。

>>> a.split()
['to', 'be', 'or', 'not', 'to', 'be']
>>> a.split("or")
['to be ', ' not to be']

  join()的作用和 split()作用刚好相反,用于将一系列子字符串连接起来。

代码示例:

>>> a = ["hao","hao","xue","xi"]
>>> " ".join(a)
'hao hao xue xi'

  拼接字符串要点:
  使用字符串拼接符+,会生成新的字符串对象,因此不推荐使用+来拼接字符串。使用 join 函数,因为 join 函数在拼接字符串之前会计算所有字符串的长度,然后逐一拷贝,仅新建一次对象。

测试+拼接符和 join(),不同的效率。代码示例:

import time

time01 = time.time()
a = ""
for i in range(int(1e7)):
    a += "abc"

time02 = time.time()

print("+拼接符耗时:{0}".format(time02-time01))

time03 = time.time()
b = []
for i in range(int(1e7)):
    b.append("abc")
a = "".join(b)

time04 = time.time()

print("join拼接符耗时:{0}".format(time04-time03))

输出结果

+拼接符耗时:57.21417784690857
join拼接符耗时:1.8158018589019775

字符串驻留机制和字符串比较

  字符串驻留:仅保存一份相同且不可变字符串的方法,不同的值被存放在字符串驻留池中。
  Python 支持字符串驻留机制,对于符合标识符规则的字符串(仅包含下划线(_)、字母和数字)会启用字符串驻留机制驻留机制。

代码示例:

>>> a = "abd_33"
>>> b = "abd_33"
>>> a is b
True
>>> c = "dd#"
>>> d = "dd#"
>>> c is d
False
>>> c == d
True

字符串比较和同一性

  可以直接使用==,!=对字符串进行比较,是否含有相同的字符。
  使用 is / not is,判断两个对象是否同一个对象。比较的是对象的地址,即 id(obj1)是否和 id(obj2)相等。

成员操作符

  in /not in 关键字,判断某个字符(子字符串)是否存在于字符串中。

代码示例:

>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> "c" in a
True
>>> "aj" not in a
True

字符串常用方法汇总

常用查找方法

  以一段文本作为测试:
a = ‘XGBoost 是 “Extreme Gradient Boosting” 的缩写,其中 “Gradient Boosting” 一词在论文 Greedy Function Approximation: A Gradient Boosting Machine 中,由 Friedman 提出。’

代码示例:

>>> a = 'XGBoost 是 “Extreme Gradient Boosting” 的缩写,其中 “Gradient Boosting” 一词在论文 Greedy Function Approximation: A Gradient Boosting Machine 中,由 Friedman 提出。'
>>> len(a) #字符串长度
146
>>> a.startswith('XG') #以指定字符串开头
True
>>> a.endswith('。') #以指定字符串结尾
True
>>> a.find('Gra') #第一次出现指定字符串的位置
19
>>> a.rfind('Gra') #最后一次出现指定字符串的位置
104
>>> a.count("Gra") #指定字符串出现了几次
3
>>> a.isalnum() # 所有字符全是字母或数字
False

去除首尾信息

  我们可以通过 strip()去除字符串首尾指定信息。通过 lstrip()去除字符串左边指定信息,rstrip()去除字符串右边指定信息。

代码示例:

>>> "*a*b*c*".strip("*")
'a*b*c'
>>> "*a*b*c*".lstrip("*")
'a*b*c*'
>>> "*a*b*c*".rstrip("*")
'*a*b*c'
>>> "   abc   ".strip()
'abc'

大小写转换

  编程中关于字符串大小写转换的情况,经常遇到。

代码示例:

>>> a = "i love study, FOREVER"
>>> a.capitalize() #产生新的字符串,首字母大写
'I love study, forever'
>>> a.title() #产生新的字符串,每个单词都首字母大写
'I Love Study, Forever'
>>> a.upper() #产生新的字符串,所有字符全转成大写
'I LOVE STUDY, FOREVER'
>>> a.lower() #产生新的字符串,所有字符全转成小写
'i love study, forever'
>>> a.swapcase() #产生新的,所有字母大小写转换
'I LOVE STUDY, forever'

格式排版

  center()、ljust()、rjust()这三个函数用于对字符串实现排版。

代码示例:

>>> a = "abc"
>>> a.center(10,"@")
'@@@abc@@@@'
>>> a.center(10)
'   abc    '
>>> a.ljust(10)
'abc       '
>>> a.rjust(10)
'       abc'

其他方法

  1. isalnum() 是否为字母或数字
  2. isalpha() 检测字符串是否只由字母组成(含汉字)。
  3. isdigit() 检测字符串是否只由数字组成。
  4. isspace() 检测是否为空白符
  5. isupper() 是否为大写字母
  6. islower() 是否为小写字母

代码示例:

>>> "abcde199".isalnum()
True
>>> "我爱学习ilovesudy".isalpha()
True
>>> "533".isdigit()
True
>>> "    ".isspace()
True
>>> "AHDWAKJ".isupper()
True
>>> "ADWAD".islower()
False

字符串的格式化

format()基本用法

  Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。
  基本语法是通过 {} 和 : 来代替以前的 % 。
  format 函数可以接受不限个参数,位置可以不按顺序。
  我们可以通过{索引}/{参数名},直接映射参数值,实现对字符串的格式化,非常方便。

代码示例:

>>> a = "名字是:{0},年龄是:{1}"
>>> a.format("Russell",18)
'名字是:Russell,年龄是:18'
>>> b = "名字是:{0},年龄是{1}。{0}是个好小伙"
>>> b.format("Russell",18)
'名字是:Russell,年龄是18。Russell是个好小伙'
>>> c = "名字是{name},年龄是{age}"
>>> c.format(name="Russell",age=18)
'名字是Russell,年龄是18'

填充与对齐

  填充常跟对齐一起使用。
  ^、<、>分别是居中、左对齐、右对齐,后面带宽度。
  :号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充

代码示例:

>>> "{:*>8}".format("abc")
'*****abc'
>>> "我是{0},我喜欢数字{1:*^9}".format("Russell","6")
'我是Russell,我喜欢数字****6****'

数字格式化

  浮点数通过 f,整数通过 d 进行需要的格式化。

代码示例:

>>> a = "我是{0},我的存款有{1:.2f}"
>>> a.format("Russell",18888888.88888888)
'我是Russell,我的存款有18888888.89'
>>> a = "我是{0},我的存款有{1:>12d}"
>>> a.format("Russell",18888888) 
'我是Russell,我的存款有    18888888'
>>> "{:,}".format(1000000) #以逗号分隔的数字格式
'1,000,000'
>>> "{:.2%}".format(0.25) #百分比格式
'25.00%'
>>> "{:.2e}".format(1992828282)
'1.99e+09'

可变字符串

  在 Python 中,字符串属于不可变对象,不支持原地修改,如果需要修改其中的值,只能创建新的字符串对象。但是,经常我们确实需要原地修改字符串,可以使用 io.StringIO对象或 array 模块。

代码示例:

>>> aio.getvalue()
'abcdefg'
>>> aio.seek(7)
7
>>> aio.write("h")
1
>>> aio.getvalue()
'abcdefgh'

猜你喜欢

转载自blog.csdn.net/weixin_45031468/article/details/111599654