re:Invent 2023 | 使用Amazon S3中的校验和开始进行数据完整性检查

关键字: [Amazon Web Services re:Invent 2023, Amazon S3, Data Integrity, Checksum Algorithms, Trailing Checksums, Checksum Of Checksums, Getobjectattributes Api]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1794y177E1

导读

组织正在不断地将关键的数字资产迁移到Amazon S3。随着资产在工作流程中的迁移和使用,确保文件不受网络故障、硬盘故障或其他问题的影响保持不变非常重要。算法用于逐字节扫描文件以生成唯一的指纹,即校验和。在STG201的后续演示中,了解如何使用校验和来验证复制时资产不会被更改。探索Amazon S3校验和选项以加速数据完整性检查。了解如何确认字节在传输过程中没有被更改,帮助您维护端到端的数据完整性。

演讲精华

以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

Aritra Gupta,亚马逊S3的高级产品经理,向观众提出了一个引人深思的问题:你认为亚马逊S3每秒会进行多少次校验和验证?在观众猜测之后,他揭晓了答案,S3每秒处理惊人的40亿次校验和验证,强调了亚马逊对数据完整性的承诺是他们最优先的事项。

Gupta随后详细解释了校验和的概念——这是一种将字母数字表示法应用于对象数据以生成对象内容的独特方法。他强调了校验和的两个主要用途:在从一个位置移动到另一个位置时验证传输中的数据,以及在长期存储时验证存储中的数据。例如,他描述了一个将自行车从源地点运送到目的地并比较两端校验和以确认安全到达的场景作为传输中数据验证的例子。对于存储中的数据,校验和可以通过将当前的校验与上次访问时的已知值进行比较,来帮助检查已存档的数据是否已经更改。

值得注意的是,Gupta澄清说,亚马逊S3已经在传输中和存储中使用CRC、SHA-256和MD5算法来验证数据。他讨论的能力代表了客户可以在S3现有校验之外使用的额外工具。

接下来,他深入探讨了一些除S3内部过程之外的校验和验证的常见应用。第一个是数据迁移,其中校验和可以验证从内部或其他来源移动到S3的数据是否与原始数据匹配。这对于将大型数据集迁移到云中的客户至关重要。第二个是数字保存,通常由媒体、娱乐和政府机构用于在长时间内维护其数字档案的保管链记录。最后,校验和可以帮助识别重复的数据副本,从而帮助客户通过删除多个桶中的冗余对象来优化成本。

在谈到S3的功能时,Gupta强调了一系列所支持的校验和算法,使客户可以根据他们的使用场景选择正确的算法--无论是针对流处理工作负载的高速度性能的CRC-32C,还是FDA规定的基因组数据校验所需的SHA-256。

Amazon S3根据不同使用场景支持多种校验和算法;尾端校验和带来了性能上的提升;使用校验和可以高效地验证大型对象的完整性。

总的来说,Gupta详细阐述了Amazon S3的强大的校验能力,以确保数据的完整性,无论是通过自动校验还是客户驱动的额外验证。作为全球最大的云存储服务提供商,Amazon S3每天处理万亿次的请求,而校验和正是其设计的关键方面之一,为客户提供宝贵数据的额外保障。

下面是一些演讲现场的精彩瞬间:

领导者吸引了观众的注意力,请他们猜测亚马逊S3每秒执行的有效校验和验证次数。

在深入讲解关键细节之前,他希望通过这个问题来引发观众的兴趣。

在将数据从内部系统迁移到S3的过程中,可以通过比较校验和来验证数据的准确性。

这种方法可以确保数据的完整性和一致性。

相较于逐个顺序地计算完整对象的校验和,并行计算对象校验和可以显著减少所需的时间。

这种优化提高了处理大量数据时的效率。

演示过程中,领导者向观众们展示了如何使用亚马逊云科技SDK轻松地将大文件上传到S3,并通过分片上传来实现这一目标。

总结

亚马逊S3每天都会执行数十亿次的校验和验证,以确保数据的完整性,这是其首要任务之一。亚马逊云科技的一位高级产品经理Aritra Gupta曾就如何在S3中利用校验和进行额外的数据验证进行了一场富有启发性的演讲。

他首先解释了对校验和如何工作的理解——通过应用诸如CRC-32之类的算法来生成对象内容唯一的哈希值。校验和对于在传输中和静止状态下验证数据非常有帮助。应用场景包括数据迁移、数字保存和重复数据删除等。

S3支持多种校验和算法,如CRC、SHA-256和MD5。对于流处理工作负载,可以启用尾随校验和,在上载过程中附加哈希以实现更好的性能。对于大型对象,可以使用并行校验和,将校验和计算分布在各个部分上,从而实现巨大的加速。全面的GetObjectAttributes API提供校验和详细信息,如算法、校验和的校验和以及部分级别的校验和。

总的来说,应根据您的使用场景需求选择合适的校验和算法。为了获得性能提升,可以利用尾随校验和以及校验和的并行校验和功能。GetObjectAttributes API为您提供对象的完整校验和信息。校验和为S3提供了额外的数据验证和完整性保证层。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134868457

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

猜你喜欢

转载自blog.csdn.net/weixin_40272094/article/details/134868461