Protobuf简介及如何在GO语言中使用Protobuf?

0.前言

Protobuf是一种由Google开发的二进制序列化数据格式,它可以用于在不同的计算机系统之间传输结构化数据。有很多其他的数据交换格式,比如JSON、XML等,那么Protobuf与他们相比有什么好处呢?主要体现在下面几点:

  • 更快的序列化和反序列化:与其他数据交换格式(如JSON和XML)相比,Protobuf是一种二进制格式,因此可以更快地序列化和反序列化消息。这使得在高并发、大数据处理等场景下,使用Protobuf可以显著提高应用程序的性能和效率。
  • 更小的消息体积:由于Protobuf是一种紧凑的二进制格式,因此它可以生成更小的消息体积,这对于网络传输和存储都是非常有益的。这可以节省带宽和存储空间,同时也可以提高应用程序的性能。
  • 兼容性和版本控制:使用Protobuf可以更轻松地进行兼容性和版本控制。通过对消息定义的修改和版本控制,可以轻松地向后兼容和向前兼容,这对于在长期的开发周期中保持代码的稳定性和可靠性非常有帮助。
  • 简化代码:使用Protobuf可以使代码更加简洁和易于维护。由于Protobuf可以自动生成结构体和其他数据结构的代码,因此不需要手动编写复杂的数据解析和序列化代码,这可以使代码更加清晰和易于阅读。

本文将介绍如何在Go中使用Protobuf,包括安装如何定义Protobuf消息生成Go代码序列化和反序列化消息在网络中使用Protobuf以及版本控制和兼容性

1.安装

安装 Protocol Buffers(protobuf)可以分为两个部分:

  1. 安装 protoc 编译器
  2. 安装 Go 的 protobuf 库

1. 安装 protoc 编译器

protoc 编译器可以 将.proto 文件编译成多种编程语言的代码,例如 C++、Java、Python、Go 等,是protobuf的核心组件。

可以从 Protocol Buffers 的 GitHub 上找到最新的编译器版本:https://github.com/protocolbuffers/protobuf/releases

在下载页面中找到合适的系统的版本下载随后将bin目录添加到环境变量即可。

以下以Windows x64为例。

  • 下载:点击此处下载包,将下载的压缩包解压到某个文件夹。
  • **环境变量:**打开环境变量设置的地方,将压缩包中的bin文件夹添加到PATH环境变量中。
  • **测试:**打开cmd,输入protoc --version,如果输出版本,说明安装成功。

2. 安装 Go 的 protobuf 库

接下来还需要安装 Go 的 protobuf 库。这个库可以使用protoc编译器生成GO代码,可以使用以下命令完成安装:

go get -u github.com/golang/protobuf/protoc-gen-go

注意,protoc-gen-go 将自动安装到 $GOPATH/bin 目录下,也需要将这个目录加入到环境变量中

2.定义Protobuf消息类型

2.1 编写.proto包文件

消息类型定义在.proto包中,我们这里创建个person.proto 文件,将以下的经典的示例写法写入:

syntax = "proto3";

option go_package = "/person";

package example;

message Person {
    string name = 1;
    int32 age = 2;
    repeated string hobbies = 3;
}
  • syntax = "proto3":用于指定.proto文件的版本,这里使用的是 Protocol Buffers 3 版本。
  • package example:指定消息类型所在的包名,这里包名是 example`。
  • option go_package = "/person";用于指定生成的 Go 代码的包名(package name)及导入路径(import path)。
  • message Person { ... }:定义一个名为 Person 的消息类型。
  • string name = 1:定义一个名为 name 的字符串类型字段,该字段的标签号为 1
  • int32 age = 2:定义一个名为 age 的整型字段,该字段的标签号为 2
  • repeated string hobbies = 3:定义一个名为 hobbies 的字符串数组类型字段,该字段的标签号为 3repeated 关键字表示该字段是一个数组类型。

这个.proto文件中定义了一个名为 Person 的消息类型,包含了 nameagehobbies 三个字段。nameage 都是普通的单值类型字段,hobbies 是一个字符串数组类型字段。在这个文件中,每个字段都有一个唯一的标签号,用于标识这个字段在二进制编码中的位置和类型。

2.2 使用protoc生成GO代码

在此文件的目录下,运行protoc --go_out=. *.proto命令,即可生成GO代码。

运行后,我们可以看到该目录下多出了一个person文件夹,里面包含 Go 文件 person.pb.go。这个文件内部定义了一个结构体 Person,以及相关的方法:

type Person struct {
   state         protoimpl.MessageState
   sizeCache     protoimpl.SizeCache
   unknownFields protoimpl.UnknownFields

   Name    string   `protobuf:"bytes,1,opt,name=name,proto3" json:"name,omitempty"`
   Age     int32    `protobuf:"varint,2,opt,name=age,proto3" json:"age,omitempty"`
   Hobbies []string `protobuf:"bytes,3,rep,name=hobbies,proto3" json:"hobbies,omitempty"`
}

除了结构体外,还有很多方法,这些方法提供了对 Protocol Buffers 消息进行编码、解码和操作的基础设施,有以下几个主要的方法。

  • func (*Person) Reset(): 将 Person 消息重置为默认值。
  • func (*Person) String() string: 返回一个字符串,包含 Person 消息的文本表示形式。
  • func (*Person) ProtoMessage(): 使 Person 结构体实现 proto.Message 接口,这是在序列化和反序列化 Protobuf 消息时所需的。
  • func (*Person) Descriptor() ([]byte, []int): 返回关于 Person 消息类型的描述符信息。
  • func (*Person) GetName() string: 返回 Person 消息中 Name 字段的值。
  • func (*Person) GetAge() int32: 返回 Person 消息中 Age 字段的值。

写一个简单的测试吧!

func main() {
	p:=&person.Person{Name: "yzy",Age: 23,Hobbies: []string{"music","sport"}}
	fmt.Println("string",p.String())
	fmt.Println("the data:",p.Name,p.Age,p.Hobbies)

	fmt.Println("-----------")
	fmt.Println("reset the person")
	fmt.Println("-----------")
	
	p.Reset()
	fmt.Println("string",p.String())
	fmt.Println("the data:",p.Name,p.Age,p.Hobbies)
}

运行后可以看到,get、string、reset都正常运行。

2.3 序列化和反序列化消息

序列化和反序列化函数在github.com/golang/protobuf/proto包中,这个包刚刚我们已经通过go get获取过了,所以可以直接使用,以下是一个序列化和非序列化的使用示例,并且比较了序列化前和经过序列化后的数据是否一致。

func TestPersonSerialization(t *testing.T) {
	// 创建一个 Person 消息实例并设置其字段
	p:=&Person{Name: "yzy",Age: 23,Hobbies: []string{"music","sport"}}

	// 将消息序列化为二进制格式
	data, err := proto.Marshal(p)
	if err != nil {
		t.Fatal("marshaling error: ", err)
	}

	// 反序列化消息
	p2 := &Person{}
	err = proto.Unmarshal(data, p2)
	if err != nil {
		t.Fatal("unmarshaling error: ", err)
	}

	// 比较原始消息和反序列化后的消息
	if p.String()!=p2.String() {
		t.Fatalf("original message %v != unmarshaled message %v", p, p2)
	}
}

2.4 字段类型

字段类型部分参考Go Protobuf 简明教程 .

2.4.1 标量类型(Scalar)

proto类型 go类型 备注 proto类型 go类型 备注
double float64 float float32
int32 int32 int64 int64
uint32 uint32 uint64 uint64
sint32 int32 适合负数 sint64 int64 适合负数
fixed32 uint32 固长编码,适合大于2^28的值 fixed64 uint64 固长编码,适合大于2^56的值
sfixed32 int32 固长编码 sfixed64 int64 固长编码
bool bool string string UTF8 编码,长度不超过 2^32
bytes []byte 任意字节序列,长度不超过 2^32

标量类型如果没有被赋值,则不会被序列化,解析时,会赋予默认值。

  • strings:空字符串
  • bytes:空序列
  • bools:false
  • 数值类型:0

2.4.2 枚举(Enumerations)

枚举类型适用于提供一组预定义的值,选择其中一个。例如我们将性别定义为枚举类型。

message Student {
  string name = 1;
  enum Gender {
    FEMALE = 0;
    MALE = 1;
  }
  Gender gender = 2;
  repeated int32 scores = 3;
}
  • 枚举类型的第一个选项的标识符必须是0,这也是枚举类型的默认值。
  • 别名(Alias),允许为不同的枚举值赋予相同的标识符,称之为别名,需要打开allow_alias选项。
message EnumAllowAlias {
  enum Status {
    option allow_alias = true;
    UNKOWN = 0;
    STARTED = 1;
    RUNNING = 1;
  }
}

2.4.3 使用其他消息类型

Result是另一个消息类型,在 SearchReponse 作为一个消息字段类型使用。

message SearchResponse {
  repeated Result results = 1; 
}

message Result {
  string url = 1;
  string title = 2;
  repeated string snippets = 3;
}

嵌套写也是支持的:

message SearchResponse {
  message Result {
    string url = 1;
    string title = 2;
    repeated string snippets = 3;
  }
  repeated Result results = 1;
}

如果定义在其他文件中,可以导入其他消息类型来使用:

import "myproject/other_protos.proto";

2.4.4 任意类型(Any)

Any 可以表示不在 .proto 中定义任意的内置类型。

import "google/protobuf/any.proto";

message ErrorStatus {
  string message = 1;
  repeated google.protobuf.Any details = 2;
}

2.4.5 oneof

message SampleMessage {
  oneof test_oneof {
    string name = 4;
    SubMessage sub_message = 9;
  }
}

2.4.6 map

message MapRequest {
  map<string, int32> points = 1;
}

3.总结

目前为止,就可以实现在服务端和客户端,通过同一个.proto文件生成.go文件,随后通过此.go文件,使用序列化后的二进制格式进行传输,并可进行数据的反序列化,比使用传统的json格式有更高的效率。

probuf还可以用于定义RPC的接口,往后的文章会对这一作用进行描述。

猜你喜欢

转载自blog.csdn.net/doreen211/article/details/129466113