go字符串详解


摘要

go字符串结构体包含:指向底层存储数组的指针、字符串长度。字符串按utf-8将字符编码成二进制数,然后存储在byte数组中。因为utf-8编码一个字符可能占用多个字节,例如一个汉字占3个字节,所以字符串中的一个字符可能对应byte数组中的多个元素。为了让一个字符对应数组的一个元素以便于处理,go设计了rune类型,其底层是int32,四个字节,正好能存储最大四个字节utf-8编码数据。

1、byte和rune类型

  • byte等价于uint8类型的数据,一个字节大小,是字符串底层存储数据的结构。
  • rune等价于int32类型的数据,四个字节大小,为了处理utf-8字符串而设计的。因为go语言字符串默认是按照utf-8编码的方式存储数据的,其中最大的字符占用4个字节的数据,所以需要rune才能一个字符对应一个数据元素。

2、字符串(string)

在go中字符串具有如下特征:

  • go字符串存储在只读内存段中,不能被修改,但可以被切片和复制。
  • 字符串结构由一个指向底层数组的指针和字符串长度组成。因为给出了具体长度,所以不需要以’\0’的方式判断字符串结尾。
  • 底层使用字节(byte)数组存储字符串中各字符对应的数字编码。一个字符可能占用好几个byte。

需要注意的是在utf-8编码中,一个汉字占用3个字节,而byte是uint8类型,一个byte元素一个字节,需要三个byte才能存储一个汉字。所以:

func main() {
    
    
   s := "哈喽世界"
   fmt.Println(len(s)) // 输出:12
}

而rune是int32类型,四个字节,和utf-8最大字节数(4个字节)一致,所以可以将string类型转换为rune,去查看其具体存储的字符数。如下:

func main() {
    
    
   s := "哈喽世界"
   fmt.Println(len([]rune(s))) // 输出:4
}

需要注意的是:go中rune类型就是为了处理utf-8字符串而设计的,而定长4字节的方式存储utf-8中只占1、2、3个字节的字符,存在一定的空间浪费。所以string默认是按照byte类型的存储的,更加节省空间,当需要的时候,再转换为rune处理。

3、练习-反转字符串

如果反转函数如下:

func reverse(s string) string {
    
    
   bs := []byte(s)
   sLen := len(bs)
   for i := 0; i < sLen/2; i++ {
    
    
      bs[i], bs[sLen-i-1] = bs[sLen-i-1], bs[i]
   }
   return string(bs)
}

那么传入属于1字节编码的ASCILL字符,能够被反转:

func main() {
    
    
   s := "abcdefg"
   fmt.Println(reverse(s)) // 输出gfedcba
}

但是若传入需要占用多个字节的字符,就会输出乱码:

s := "哈喽世界"
fmt.Println(reverse(s)) // 输出��疸佖刓�

所以如果想要使得所有输入字符都能被正确的反转,应该使用rune代替byte:

func reverse(s string) string {
    
    
   bs := []rune(s)
   sLen := len(bs)
   for i := 0; i < sLen/2; i++ {
    
    
      bs[i], bs[sLen-i-1] = bs[sLen-i-1], bs[i]
   }
   return string(bs)
}

func main() {
    
    
   s := "哈喽世界"
   fmt.Println(reverse(s)) // 输出:界世喽哈
}

猜你喜欢

转载自blog.csdn.net/sunningzhzh/article/details/126279887