0.前言
Protobuf是一种由Google开发的二进制序列化数据格式,它可以用于在不同的计算机系统之间传输结构化数据。有很多其他的数据交换格式,比如JSON、XML等,那么Protobuf与他们相比有什么好处呢?主要体现在下面几点:
- 更快的序列化和反序列化:与其他数据交换格式(如JSON和XML)相比,Protobuf是一种二进制格式,因此可以更快地序列化和反序列化消息。这使得在高并发、大数据处理等场景下,使用Protobuf可以显著提高应用程序的性能和效率。
- 更小的消息体积:由于Protobuf是一种紧凑的二进制格式,因此它可以生成更小的消息体积,这对于网络传输和存储都是非常有益的。这可以节省带宽和存储空间,同时也可以提高应用程序的性能。
- 兼容性和版本控制:使用Protobuf可以更轻松地进行兼容性和版本控制。通过对消息定义的修改和版本控制,可以轻松地向后兼容和向前兼容,这对于在长期的开发周期中保持代码的稳定性和可靠性非常有帮助。
- 简化代码:使用Protobuf可以使代码更加简洁和易于维护。由于Protobuf可以自动生成结构体和其他数据结构的代码,因此不需要手动编写复杂的数据解析和序列化代码,这可以使代码更加清晰和易于阅读。
本文将介绍如何在Go中使用Protobuf,包括安装、如何定义Protobuf消息、生成Go代码、序列化和反序列化消息、在网络中使用Protobuf以及版本控制和兼容性。
1.安装
安装 Protocol Buffers(protobuf)可以分为两个部分:
- 安装 protoc 编译器
- 安装 Go 的 protobuf 库
1. 安装 protoc 编译器
protoc 编译器可以 将.proto 文件编译成多种编程语言的代码,例如 C++、Java、Python、Go 等,是protobuf的核心组件。
可以从 Protocol Buffers 的 GitHub 上找到最新的编译器版本:https://github.com/protocolbuffers/protobuf/releases
在下载页面中找到合适的系统的版本下载随后将bin目录添加到环境变量即可。
以下以Windows x64为例。
- 下载:点击此处下载包,将下载的压缩包解压到某个文件夹。
- **环境变量:**打开环境变量设置的地方,将压缩包中的bin文件夹添加到
PATH
环境变量中。 - **测试:**打开cmd,输入
protoc --version
,如果输出版本,说明安装成功。
2. 安装 Go 的 protobuf 库
接下来还需要安装 Go 的 protobuf 库。这个库可以使用protoc编译器生成GO代码,可以使用以下命令完成安装:
go get -u github.com/golang/protobuf/protoc-gen-go
注意,protoc-gen-go 将自动安装到 $GOPATH/bin
目录下,也需要将这个目录加入到环境变量中。
2.定义Protobuf消息类型
2.1 编写.proto包文件
消息类型定义在.proto
包中,我们这里创建个person.proto 文件
,将以下的经典的示例写法写入:
syntax = "proto3";
option go_package = "/person";
package example;
message Person {
string name = 1;
int32 age = 2;
repeated string hobbies = 3;
}
syntax = "proto3"
:用于指定.proto
文件的版本,这里使用的是 Protocol Buffers 3 版本。package example:指定消息类型所在的包名,这里包名是
example`。option go_package = "/person";
用于指定生成的 Go 代码的包名(package name)及导入路径(import path)。message Person { ... }
:定义一个名为Person
的消息类型。string name = 1
:定义一个名为name
的字符串类型字段,该字段的标签号为1
。int32 age = 2
:定义一个名为age
的整型字段,该字段的标签号为2
。repeated string hobbies = 3
:定义一个名为hobbies
的字符串数组类型字段,该字段的标签号为3
。repeated
关键字表示该字段是一个数组类型。
这个.proto
文件中定义了一个名为 Person
的消息类型,包含了 name
、age
和 hobbies
三个字段。name
和 age
都是普通的单值类型字段,hobbies
是一个字符串数组类型字段。在这个文件中,每个字段都有一个唯一的标签号,用于标识这个字段在二进制编码中的位置和类型。
2.2 使用protoc生成GO代码
在此文件的目录下,运行protoc --go_out=. *.proto
命令,即可生成GO代码。
运行后,我们可以看到该目录下多出了一个person文件夹,里面包含 Go 文件 person.pb.go
。这个文件内部定义了一个结构体 Person,以及相关的方法:
type Person struct {
state protoimpl.MessageState
sizeCache protoimpl.SizeCache
unknownFields protoimpl.UnknownFields
Name string `protobuf:"bytes,1,opt,name=name,proto3" json:"name,omitempty"`
Age int32 `protobuf:"varint,2,opt,name=age,proto3" json:"age,omitempty"`
Hobbies []string `protobuf:"bytes,3,rep,name=hobbies,proto3" json:"hobbies,omitempty"`
}
除了结构体外,还有很多方法,这些方法提供了对 Protocol Buffers 消息进行编码、解码和操作的基础设施,有以下几个主要的方法。
func (*Person) Reset()
: 将Person
消息重置为默认值。func (*Person) String() string
: 返回一个字符串,包含Person
消息的文本表示形式。func (*Person) ProtoMessage()
: 使Person
结构体实现proto.Message
接口,这是在序列化和反序列化 Protobuf 消息时所需的。func (*Person) Descriptor() ([]byte, []int)
: 返回关于Person
消息类型的描述符信息。func (*Person) GetName() string
: 返回Person
消息中Name
字段的值。func (*Person) GetAge() int32
: 返回Person
消息中Age
字段的值。
写一个简单的测试吧!
func main() {
p:=&person.Person{Name: "yzy",Age: 23,Hobbies: []string{"music","sport"}}
fmt.Println("string",p.String())
fmt.Println("the data:",p.Name,p.Age,p.Hobbies)
fmt.Println("-----------")
fmt.Println("reset the person")
fmt.Println("-----------")
p.Reset()
fmt.Println("string",p.String())
fmt.Println("the data:",p.Name,p.Age,p.Hobbies)
}
运行后可以看到,get、string、reset都正常运行。
2.3 序列化和反序列化消息
序列化和反序列化函数在github.com/golang/protobuf/proto
包中,这个包刚刚我们已经通过go get获取过了,所以可以直接使用,以下是一个序列化和非序列化的使用示例,并且比较了序列化前和经过序列化后的数据是否一致。
func TestPersonSerialization(t *testing.T) {
// 创建一个 Person 消息实例并设置其字段
p:=&Person{Name: "yzy",Age: 23,Hobbies: []string{"music","sport"}}
// 将消息序列化为二进制格式
data, err := proto.Marshal(p)
if err != nil {
t.Fatal("marshaling error: ", err)
}
// 反序列化消息
p2 := &Person{}
err = proto.Unmarshal(data, p2)
if err != nil {
t.Fatal("unmarshaling error: ", err)
}
// 比较原始消息和反序列化后的消息
if p.String()!=p2.String() {
t.Fatalf("original message %v != unmarshaled message %v", p, p2)
}
}
2.4 字段类型
字段类型部分参考Go Protobuf 简明教程 .
2.4.1 标量类型(Scalar)
proto类型 | go类型 | 备注 | proto类型 | go类型 | 备注 |
---|---|---|---|---|---|
double | float64 | float | float32 | ||
int32 | int32 | int64 | int64 | ||
uint32 | uint32 | uint64 | uint64 | ||
sint32 | int32 | 适合负数 | sint64 | int64 | 适合负数 |
fixed32 | uint32 | 固长编码,适合大于2^28的值 | fixed64 | uint64 | 固长编码,适合大于2^56的值 |
sfixed32 | int32 | 固长编码 | sfixed64 | int64 | 固长编码 |
bool | bool | string | string | UTF8 编码,长度不超过 2^32 | |
bytes | []byte | 任意字节序列,长度不超过 2^32 |
标量类型如果没有被赋值,则不会被序列化,解析时,会赋予默认值。
- strings:空字符串
- bytes:空序列
- bools:false
- 数值类型:0
2.4.2 枚举(Enumerations)
枚举类型适用于提供一组预定义的值,选择其中一个。例如我们将性别定义为枚举类型。
message Student {
string name = 1;
enum Gender {
FEMALE = 0;
MALE = 1;
}
Gender gender = 2;
repeated int32 scores = 3;
}
- 枚举类型的第一个选项的标识符必须是0,这也是枚举类型的默认值。
- 别名(Alias),允许为不同的枚举值赋予相同的标识符,称之为别名,需要打开
allow_alias
选项。
message EnumAllowAlias {
enum Status {
option allow_alias = true;
UNKOWN = 0;
STARTED = 1;
RUNNING = 1;
}
}
2.4.3 使用其他消息类型
Result
是另一个消息类型,在 SearchReponse 作为一个消息字段类型使用。
message SearchResponse {
repeated Result results = 1;
}
message Result {
string url = 1;
string title = 2;
repeated string snippets = 3;
}
嵌套写也是支持的:
message SearchResponse {
message Result {
string url = 1;
string title = 2;
repeated string snippets = 3;
}
repeated Result results = 1;
}
如果定义在其他文件中,可以导入其他消息类型来使用:
import "myproject/other_protos.proto";
2.4.4 任意类型(Any)
Any 可以表示不在 .proto 中定义任意的内置类型。
import "google/protobuf/any.proto";
message ErrorStatus {
string message = 1;
repeated google.protobuf.Any details = 2;
}
2.4.5 oneof
message SampleMessage {
oneof test_oneof {
string name = 4;
SubMessage sub_message = 9;
}
}
2.4.6 map
message MapRequest {
map<string, int32> points = 1;
}
3.总结
目前为止,就可以实现在服务端和客户端,通过同一个.proto文件生成.go文件,随后通过此.go文件,使用序列化后的二进制格式进行传输,并可进行数据的反序列化,比使用传统的json格式有更高的效率。
probuf还可以用于定义RPC的接口,往后的文章会对这一作用进行描述。